JPWO2015162645A1 - Audio processing method, audio processing system, and storage medium - Google Patents

Audio processing method, audio processing system, and storage medium Download PDF

Info

Publication number
JPWO2015162645A1
JPWO2015162645A1 JP2015526814A JP2015526814A JPWO2015162645A1 JP WO2015162645 A1 JPWO2015162645 A1 JP WO2015162645A1 JP 2015526814 A JP2015526814 A JP 2015526814A JP 2015526814 A JP2015526814 A JP 2015526814A JP WO2015162645 A1 JPWO2015162645 A1 JP WO2015162645A1
Authority
JP
Japan
Prior art keywords
sound
unit
predetermined
data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015526814A
Other languages
Japanese (ja)
Other versions
JP6135880B2 (en
Inventor
岸本 倫典
倫典 岸本
泰章 渡邊
泰章 渡邊
高桑 誠
誠 高桑
中村 学
学 中村
秀樹 首藤
秀樹 首藤
田村 健二
健二 田村
龍次 山崎
龍次 山崎
寛夫 齊藤
寛夫 齊藤
明寛 秋山
明寛 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2015162645A1 publication Critical patent/JPWO2015162645A1/en
Application granted granted Critical
Publication of JP6135880B2 publication Critical patent/JP6135880B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Abstract

音声データ及び画像データの活用を促進し、利便性を向上できる音声処理装置を提供する。複数のマイクロホンを含む収音部により所定のエリア内の音源から収音された音声データ、及び、前記所定エリア内の少なくとも一部の画像を撮像する撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定する第1の指定部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定範囲を指定する第2の指定部と、前記指定された所定範囲内において、前記指定された方向の前記音声データにおける音声成分を強調する指向性処理部と、を備える。Provided is an audio processing device that promotes utilization of audio data and image data and can improve convenience. Audio data collected from a sound source in a predetermined area by a sound collecting unit including a plurality of microphones, and data for acquiring image data captured by an imaging unit that captures at least a part of the image in the predetermined area An acquisition unit; a first designation unit that designates a direction relative to the sound collection unit corresponding to a designated location on the image displayed based on the image data; and an image displayed based on the image data. A second designating unit for designating a predetermined range in the predetermined area corresponding to the designated location, and directivity for emphasizing the audio component in the audio data in the designated direction within the designated predetermined range A processing unit.

Description

本発明は、音声処理装置、音声処理システム、及び音声処理方法に関する。   The present invention relates to a voice processing device, a voice processing system, and a voice processing method.

従来、例えば、工場、店舗、公共の場所の状況を、特定の室内又は遠隔地において監視する場合に、監視システムが利用されている。監視システムは、例えば、画像を撮像するカメラ、音声を収音するマイクロホン、所定のデータ(例えば、撮像した画像、収音された音声)を記憶するレコーダ装置、を備える。監視システムを用いることで、例えば、事件又は事故が発生した場合、レコーダ装置が記録した過去のデータを再生し、記録された画像又は音声を過去の時点における状況把握に役立てることができる。   2. Description of the Related Art Conventionally, for example, when a situation of a factory, a store, or a public place is monitored in a specific room or a remote place, a monitoring system is used. The monitoring system includes, for example, a camera that picks up an image, a microphone that picks up sound, and a recorder device that stores predetermined data (for example, picked-up images and picked-up sound). By using the monitoring system, for example, when an incident or accident occurs, the past data recorded by the recorder device can be reproduced, and the recorded image or sound can be used for grasping the situation at the past time point.

従来の監視システムとして、全方位カメラ及びマイクロホンアレイのためのシステムが知られている。このシステムは、複数のマイクロホンにより形成されたアレイマイクを利用し、フィルタリングにより特定の方向からの音のみを抽出し、ビームを形成する(例えば、特許文献1参照)。   As a conventional monitoring system, a system for an omnidirectional camera and a microphone array is known. This system uses an array microphone formed by a plurality of microphones, extracts only sound from a specific direction by filtering, and forms a beam (see, for example, Patent Document 1).

日本国特開2004−32782号公報Japanese Unexamined Patent Publication No. 2004-32782

アレイマイクを用いて収音された音声データには、様々な有益な情報が含まれている可能性がある。特許文献1の監視システムでは、音声データ及び画像データの活用が不十分であり、監視システムを利用する利用者の利便性を向上させることが期待される。   There is a possibility that various useful information is included in the audio data collected using the array microphone. In the monitoring system of Patent Document 1, the use of audio data and image data is insufficient, and it is expected to improve the convenience of users who use the monitoring system.

本発明は、上記事情に鑑みてなされたものであり、音声データ及び画像データの活用を促進し、利便性を向上できる音声処理装置、音声処理システム、及び音声処理方法を提供する。   The present invention has been made in view of the above circumstances, and provides an audio processing device, an audio processing system, and an audio processing method that can promote utilization of audio data and image data and improve convenience.

本発明の一形態における音声処理装置は、複数のマイクロホンを含む収音部により所定エリア内の音源から収音された音声データ、及び、前記所定エリア内の少なくとも一部の画像を撮像する撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定する第1の指定部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定の範囲を指定する第2の指定部と、前記指定された所定の範囲内において、前記指定された方向の前記音声データにおける音声成分を強調する指向性処理部と、を備える。   An audio processing apparatus according to an aspect of the present invention includes an imaging unit that captures audio data collected from a sound source in a predetermined area by a sound collecting unit including a plurality of microphones, and at least a part of an image in the predetermined area. A data acquisition unit that acquires the image data captured by the image data, a first specification unit that specifies a direction relative to the sound collection unit corresponding to a specified location on the image displayed based on the image data, A second designation unit for designating a predetermined range in the predetermined area corresponding to a specified location on the image displayed based on the image data; and the specified direction in the specified predetermined range A directivity processing unit that emphasizes a voice component in the voice data.

また、本発明の他の形態における音声処理システムは、複数のマイクロホンを用いて所定エリア内の音源から音声データを収音する収音部を含む収音装置と、前記所定エリア内の少なくとも一部の画像を撮像する撮像部を含む撮像装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、前記音声処理装置は、前記収音部により収音された音声データ、及び、前記撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定する第1の指定部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定の範囲を指定する第2の指定部と、前記指定された所定の範囲内において、前記指定された方向の音声データにおける音声成分を強調する指向性処理部と、を備える。   According to another aspect of the present invention, there is provided a sound processing system including a sound collecting device including a sound collecting unit that collects sound data from a sound source in a predetermined area using a plurality of microphones, and at least a part of the predetermined area. And an audio processing device that processes audio data collected by the sound collection unit, the sound processing device picked up by the sound collection unit A data acquisition unit that acquires audio data and image data captured by the imaging unit, and a direction based on the sound collection unit that corresponds to a specified location on the image displayed based on the image data A first designating unit, a second designating unit designating a predetermined range in the predetermined area corresponding to a specified location on the image displayed based on the image data, and the specified predetermined range In, and a highlight directional processing unit audio components in the designated direction of the voice data.

また、本発明のさらに他の形態における音声処理方法は、音声処理装置における音声処理方法であって、複数のマイクロホンを含む収音部により所定エリア内の音源から収音された音声データ、及び、前記所定エリア内の少なくとも一部の画像を撮像する撮像部により撮像された画像データを取得するステップと、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定するステップと、前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定の範囲を指定するステップと、前記指定された所定の範囲内において、前記指定された方向の前記音声データにおける音声成分を強調するステップと、を有する。   Further, a sound processing method according to still another aspect of the present invention is a sound processing method in a sound processing device, wherein sound data collected from a sound source in a predetermined area by a sound collecting unit including a plurality of microphones, and Obtaining image data captured by an imaging unit that captures at least a part of the image in the predetermined area, and using the sound collection unit corresponding to a designated location on an image displayed based on the image data as a reference A step of designating a direction, a step of designating a predetermined range in the predetermined area corresponding to a designated location on the image displayed based on the image data, and within the designated predetermined range, Emphasizing audio components in the audio data in the designated direction.

本発明によれば、音声データ及び画像データの活用を促進し、利便性を向上できる。   According to the present invention, utilization of audio data and image data can be promoted, and convenience can be improved.

第1の実施形態における監視システムの概要図Overview of monitoring system in the first embodiment 第1の実施形態における監視システムの構成例を示すブロック図The block diagram which shows the structural example of the monitoring system in 1st Embodiment. 第1の実施形態におけるアレイマイク、カメラ及び各音源の配置状態の一例を示す平面図The top view which shows an example of the arrangement | positioning state of the array microphone in 1st Embodiment, a camera, and each sound source 第1の実施形態における監視制御装置の動作例を示すフローチャートThe flowchart which shows the operation example of the monitoring control apparatus in 1st Embodiment. 第1の実施形態における指向性処理の概要図Overview diagram of directivity processing in the first embodiment 第2の実施形態における監視システムの概要図Overview diagram of monitoring system in second embodiment 第2の実施形態における監視システムの構成例を示すブロック図The block diagram which shows the structural example of the monitoring system in 2nd Embodiment. 第2の実施形態における監視制御装置の動作例を示すフローチャートThe flowchart which shows the operation example of the monitoring control apparatus in 2nd Embodiment. (A),(B)第1の実施形態におけるPCを用いた収音範囲の大きさの変更例を示す模式図、(C)第1の実施形態におけるタブレット端末を用いた収音範囲の大きさの一例を示す模式図(A), (B) Schematic diagram showing an example of changing the size of the sound collection range using the PC in the first embodiment, (C) The size of the sound collection range using the tablet terminal in the first embodiment. Schematic diagram showing an example of safety (A),(B)第1の実施形態における収音範囲及び収音角度の一例を示す模式図(A), (B) Schematic diagram showing an example of the sound collection range and sound collection angle in the first embodiment

本発明の実施形態について、図面を用いて以下に説明する。   Embodiments of the present invention will be described below with reference to the drawings.

(第1の実施形態)
図1は第1の実施形態における監視システム100の概要図である。監視システム100では、アレイマイク10(Array microphones)、カメラ20、及び監視制御装置30が、有線又は無線のネットワーク50を介して接続される。
(First embodiment)
FIG. 1 is a schematic diagram of a monitoring system 100 according to the first embodiment. In the monitoring system 100, an array microphone 10 (Array microphones), a camera 20, and a monitoring control device 30 are connected via a wired or wireless network 50.

アレイマイク10は収音部、収音装置の一例である。カメラ20は撮像部、撮像装置の一例である。監視制御装置30は、音声処理装置の一例である。監視システム100は、音声処理システムの一例である。   The array microphone 10 is an example of a sound collection unit and a sound collection device. The camera 20 is an example of an imaging unit and an imaging device. The monitoring control device 30 is an example of a voice processing device. The monitoring system 100 is an example of a voice processing system.

アレイマイク10は、複数のマイクロホン11(11A,11B,11C,・・・)を含み、アレイマイク10の周囲の音を収音し、つまり所定のエリア内の音源から収音し、音声データを得る。カメラ20は、カメラ20により撮像可能な上記所定エリア内の少なくとも一部を撮像し、画像データを得る。画像データは、例えば、動画又は静止画を含む。監視制御装置30は、アレイマイク10による収音結果、カメラ20による撮像結果に応じて、監視に係る各種処理を行う。   The array microphone 10 includes a plurality of microphones 11 (11A, 11B, 11C,...), Picks up sounds around the array microphone 10, that is, picks up sound from a sound source in a predetermined area, and stores sound data. obtain. The camera 20 captures at least a part of the predetermined area that can be captured by the camera 20 and obtains image data. The image data includes, for example, a moving image or a still image. The monitoring control device 30 performs various processes related to monitoring according to the sound collection result by the array microphone 10 and the imaging result by the camera 20.

監視システム100では、ユニット筐体91に、1個のカメラ20と、アレイマイク10に含まれる16個のマイクロホン11(11A,11B,11C,・・・)と、が一体的に組み込まれ、収音ユニット90を形成する。なお、アレイマイク10におけるマイクロホンの数は、15個以下でも、17個以上でもよい。また、アレイマイク10とカメラ20とは収音ユニット90を形成せず、別体に形成されてもよい。   In the monitoring system 100, one camera 20 and 16 microphones 11 (11A, 11B, 11C,...) Included in the array microphone 10 are integrally incorporated in the unit housing 91 and stored. A sound unit 90 is formed. Note that the number of microphones in the array microphone 10 may be 15 or less, or 17 or more. Further, the array microphone 10 and the camera 20 may be formed separately without forming the sound collection unit 90.

カメラ20は、例えば、撮像方向の中心(光軸方向)を鉛直下向きにして、ユニット筐体91の略中央部に配置される。アレイマイク10において複数のマイクロホン11は、ユニット筐体91の設置面に沿ってカメラ20の周囲を取り囲むように、1つの円周上に一定の間隔で配置される。複数のマイクロホン11は、円周上でなく、例えば矩形上に配置されてもよい。なお、このようなカメラ20及び複数のマイクロホン11の配置関係、配置形状は一例であり、他の配置関係、配置形状でもよい。   For example, the camera 20 is disposed at a substantially central portion of the unit casing 91 with the center (optical axis direction) in the imaging direction vertically downward. In the array microphone 10, the plurality of microphones 11 are arranged at a constant interval on one circumference so as to surround the periphery of the camera 20 along the installation surface of the unit housing 91. The plurality of microphones 11 may be arranged not on the circumference but on a rectangle, for example. The arrangement relationship and arrangement shape of the camera 20 and the plurality of microphones 11 are examples, and other arrangement relationships and arrangement shapes may be used.

カメラ20は、例えば、広範囲(例えば全方位)の被写体を同時に撮像可能に構成される。各マイクロホン11は、例えば、広範囲(例えば全方位)から到来する音波を検出可能に構成される。   For example, the camera 20 is configured to be able to simultaneously image a wide range (for example, omnidirectional) subjects. Each microphone 11 is configured to be able to detect sound waves coming from a wide range (for example, all directions), for example.

図2は監視システム100の構成例を示すブロック図である。   FIG. 2 is a block diagram illustrating a configuration example of the monitoring system 100.

監視システム100は、アレイマイク10、カメラ20、及び監視制御装置30を備える。アレイマイク10、カメラ20、及び監視制御装置30は、ネットワーク50を介して互いにデータ通信可能な状態で接続される。また、監視制御装置30には、例えば、モニタ61、タッチパネル62、及びスピーカ63が接続される。   The monitoring system 100 includes an array microphone 10, a camera 20, and a monitoring control device 30. The array microphone 10, the camera 20, and the monitoring control device 30 are connected via a network 50 in a state where data communication is possible. Further, for example, a monitor 61, a touch panel 62, and a speaker 63 are connected to the monitoring control device 30.

図2の構成は、例えば、画像及び音声をリアルタイムで監視する場合、画像データ及び音声データを監視制御装置30が記録する場合が想定される。なお、画像データをカメラ20が記録し、音声データをアレイマイク10が記録し、記録後に画像データ及び音声データが参照可能にされてもよい。   In the configuration of FIG. 2, for example, when the image and sound are monitored in real time, it is assumed that the monitoring control device 30 records the image data and sound data. The image data may be recorded by the camera 20, the audio data may be recorded by the array microphone 10, and the image data and audio data may be referred to after recording.

また、以下では、主に、アレイマイク10に含まれる複数のマイクロホン11のうち、3個のマイクロホン11A,11B,11Cを代表して説明する。3個のマイクロホン11A〜11C以外のマイクロホンについても、マイクロホン11A〜11Cと同様の構成及び機能を有する。   In the following description, three microphones 11A, 11B, and 11C among the plurality of microphones 11 included in the array microphone 10 will be mainly described. The microphones other than the three microphones 11A to 11C have the same configuration and function as the microphones 11A to 11C.

アレイマイク10は、複数のマイクロホン11A,11B,11Cが互いに近接した状態で規則的(例えば円周上)に配列され、形成される。マイクロホン11A〜11Cは、音声を電気信号(音声データ)に変換する変換器である。アレイマイク10では、複数のマイクロホン11A,11B,11Cが規則的に配置されなくてもよい。この場合でも、例えば、各マイクロホン11A〜11Cの位置の情報が監視システム100に保持され、指向性処理されてもよい。   The array microphones 10 are regularly formed (for example, on the circumference) in a state where a plurality of microphones 11A, 11B, and 11C are close to each other. The microphones 11 </ b> A to 11 </ b> C are converters that convert sound into an electrical signal (sound data). In the array microphone 10, the plurality of microphones 11A, 11B, and 11C may not be regularly arranged. Even in this case, for example, information on the positions of the microphones 11A to 11C may be held in the monitoring system 100 and subjected to directivity processing.

マイクロホン11A〜11Cの出力には、増幅器12A〜12C、A/D変換器(ADC:Analog to Digital Converter)13A〜13C、及び音声エンコーダ14A〜14Cが接続される。また、音声エンコーダ14A〜14Cの出力には、ネットワーク処理部15が接続される。   Amplifiers 12A to 12C, A / D converters (ADCs) 13A to 13C, and audio encoders 14A to 14C are connected to the outputs of the microphones 11A to 11C. The network processing unit 15 is connected to the outputs of the audio encoders 14A to 14C.

マイクロホン11A〜11Cは、様々な方向から入力される音響の振動に応じた音声データを生成する。この音声データは、アナログ音声データである。増幅器12A〜12Cは、マイクロホン11A〜11Cが出力する音声データを増幅する。A/D変換器(ADC)13A〜13Cは、増幅器12A〜12Cが出力する音声データを周期的にサンプリングし、音声データをデジタルデータに変換する。音声エンコーダ14A〜14Cは、A/D変換器13A〜13Cが出力する音声データ(音声データの波形の時系列変化)を符号化して、伝送に適した所定の形式の音声データを生成する。   The microphones 11 </ b> A to 11 </ b> C generate audio data corresponding to acoustic vibrations input from various directions. This audio data is analog audio data. The amplifiers 12A to 12C amplify audio data output from the microphones 11A to 11C. The A / D converters (ADC) 13A to 13C periodically sample the audio data output from the amplifiers 12A to 12C, and convert the audio data into digital data. The audio encoders 14A to 14C encode the audio data (the time series change of the waveform of the audio data) output from the A / D converters 13A to 13C, and generate audio data in a predetermined format suitable for transmission.

尚、本実施形態における「音声」は、人間の発声によって得られる音声の他に、例えば、機械的な振動によって発生する一般的な音響又はノイズの成分が含まれてもよい。また、「音声」には、例えば監視対象である音声以外の音声が含まれてもよい。つまり、マイクロホン11A〜11Cにより収音された音響の信号は、音響の種類を区別せずに「音声」と記載されることもある。   The “voice” in the present embodiment may include, for example, a general acoustic or noise component generated by mechanical vibration, in addition to voice obtained by human speech. In addition, “voice” may include, for example, voice other than the voice to be monitored. That is, the acoustic signal collected by the microphones 11A to 11C may be described as “voice” without distinguishing the type of the acoustic.

ネットワーク処理部15は、音声エンコーダ14A〜14Cが生成した音声データを取得し、音声データをネットワーク50へ送出する。例えば、マイクロホン11A〜11Cが収集した音声に対して、音声エンコーダ14A〜14Cが独立した音声データを生成する。よって、ネットワーク処理部15は、各マイクロホン11A〜11Cに対応する複数チャネルの音声データをネットワーク50に送出する。   The network processing unit 15 acquires the voice data generated by the voice encoders 14 </ b> A to 14 </ b> C and sends the voice data to the network 50. For example, the audio encoders 14A to 14C generate independent audio data for the audio collected by the microphones 11A to 11C. Therefore, the network processing unit 15 sends the audio data of a plurality of channels corresponding to the microphones 11A to 11C to the network 50.

カメラ20は、レンズ21、センサ22、画像エンコーダ23、及びネットワーク処理部24を備える。   The camera 20 includes a lens 21, a sensor 22, an image encoder 23, and a network processing unit 24.

レンズ21は、例えば全方位レンズ、魚眼レンズである。センサ22は、撮像デバイスであり、例えば、CCD(Charge Coupled Device)イメージセンサ、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサ、を含む。センサ22は、レンズ21を介してセンサ22の撮像面に入射される被写体の光像に応じて、画像データを生成する。   The lens 21 is, for example, an omnidirectional lens or a fisheye lens. The sensor 22 is an imaging device, and includes, for example, a CCD (Charge Coupled Device) image sensor and a CMOS (Complementary Metal Oxide Semiconductor) image sensor. The sensor 22 generates image data according to the light image of the subject that is incident on the imaging surface of the sensor 22 via the lens 21.

画像エンコーダ23は、センサ22が出力する画像データを順次処理し、所定の規格に適合する画像データを生成する。ネットワーク処理部24は、画像エンコーダ23が生成した画像データを、ネットワーク50へ送出する。   The image encoder 23 sequentially processes the image data output from the sensor 22 to generate image data that conforms to a predetermined standard. The network processing unit 24 sends the image data generated by the image encoder 23 to the network 50.

監視制御装置30は、例えば、PC(Personal Computer)30α(図9(A),(B)参照)、タブレット端末30β(図9(C)参照)、である。監視制御装置30は、例えば、CPU(Central Processing Unit)、又はDSP(Digital Signal Processor)を含む。監視制御装置30は、例えば、ROM(Read Only Memory)、又はRAM(Random Access Memory)を含む。   The monitoring control device 30 is, for example, a PC (Personal Computer) 30α (see FIGS. 9A and 9B) and a tablet terminal 30β (see FIG. 9C). The monitoring control device 30 includes, for example, a CPU (Central Processing Unit) or a DSP (Digital Signal Processor). The monitoring control device 30 includes, for example, a ROM (Read Only Memory) or a RAM (Random Access Memory).

監視制御装置30は、例えば、CPU又はDSPにより、ROM又はRAMに記録された制御用のプログラム(例えば、アプリケーションプログラム、アクティブX形式のプログラム)を実行することにより、各種機能を実現する。また、ROM又はRAMは、図示しないメモリを形成する。   The monitoring control device 30 realizes various functions by executing a control program (for example, an application program or an active X format program) recorded in the ROM or RAM by, for example, a CPU or a DSP. The ROM or RAM forms a memory (not shown).

監視制御装置30は、ネットワーク処理部31、画像デコーダ32、画像出力部33、画像認識部34、収音座標指定部35、範囲指定部44、音声デコーダ36、及び指向性処理部37を備える。また、監視制御装置30は、収音角度演算部38、範囲角度演算部45、検出部39、音源推定部40、音声出力部42、及びデータ記録部43を備える。   The monitoring control device 30 includes a network processing unit 31, an image decoder 32, an image output unit 33, an image recognition unit 34, a sound collection coordinate designation unit 35, a range designation unit 44, an audio decoder 36, and a directivity processing unit 37. The monitoring control device 30 includes a sound collection angle calculation unit 38, a range angle calculation unit 45, a detection unit 39, a sound source estimation unit 40, a voice output unit 42, and a data recording unit 43.

ネットワーク処理部31は、ネットワーク50を経由して、アレイマイク10及びカメラ20との間においてデータ通信する。データ通信により、ネットワーク処理部31は、アレイマイク10から複数のチャネルの音声データを取得し、カメラ20から画像データを取得する。ネットワーク処理部31は、データ取得部の一例である。   The network processing unit 31 performs data communication between the array microphone 10 and the camera 20 via the network 50. Through the data communication, the network processing unit 31 acquires audio data of a plurality of channels from the array microphone 10 and acquires image data from the camera 20. The network processing unit 31 is an example of a data acquisition unit.

ネットワーク処理部31は、アレイマイク10が送出する音声データとカメラ20が送出する画像データとを、アレイマイク10及びカメラ20から直接取得してもよい。ネットワーク処理部31は、データ記録部43に記録された音声データ又は画像データ(少なくとも音声データ)を、任意の時点においてデータ記録部43から読み出して取得してもよい。ネットワーク処理部31は、アレイマイク10及びカメラ20から直接取得した音声データ又は画像データを、任意の時点においてデータ記録部43に記録させてもよい。   The network processing unit 31 may directly acquire the audio data transmitted from the array microphone 10 and the image data transmitted from the camera 20 from the array microphone 10 and the camera 20. The network processing unit 31 may read out and acquire audio data or image data (at least audio data) recorded in the data recording unit 43 from the data recording unit 43 at an arbitrary time. The network processing unit 31 may cause the data recording unit 43 to record audio data or image data directly acquired from the array microphone 10 and the camera 20 at an arbitrary time.

画像デコーダ32は、ネットワーク処理部31からの画像データを復号し、再生可能な画像データを生成する。   The image decoder 32 decodes the image data from the network processing unit 31 and generates reproducible image data.

画像出力部33は、画像デコーダ32からの画像データを、モニタ61が表示可能な形式の画像データに変換し、モニタ61に送出する。また、画像出力部33は、モニタ61による表示を制御してもよい。また、画像出力部33は、検出部39からの検出情報に応じた画像データを、モニタ61に送出してもよい。   The image output unit 33 converts the image data from the image decoder 32 into image data in a format that can be displayed on the monitor 61, and sends the image data to the monitor 61. Further, the image output unit 33 may control display on the monitor 61. The image output unit 33 may send image data corresponding to the detection information from the detection unit 39 to the monitor 61.

モニタ61は、各種の画像データを表示する。モニタ61は、例えば、画像出力部33からの画像データに応じて、画像を表示する。例えば、カメラ20が撮像した画像がモニタ61に表示される。モニタ61は、提示部の一例である。   The monitor 61 displays various image data. The monitor 61 displays an image according to the image data from the image output unit 33, for example. For example, an image captured by the camera 20 is displayed on the monitor 61. The monitor 61 is an example of a presentation unit.

画像認識部34は、画像出力部33からの画像データに対して所定の画像処理を実行し、例えば、図示しないメモリに事前に登録された様々なパターンの画像と一致するか否かを認識してもよい。例えば、パターンマッチングの処理を実行し、画像に含まれる様々な物体の中から、所定の人物又は所定の人物の顔に類似するパターンを抽出する。人物以外の物体のパターンを抽出してもよい。   The image recognition unit 34 performs predetermined image processing on the image data from the image output unit 33, and recognizes, for example, whether or not the images match various patterns registered in advance in a memory (not shown). May be. For example, pattern matching processing is executed, and a pattern similar to a predetermined person or a predetermined person's face is extracted from various objects included in the image. A pattern of an object other than a person may be extracted.

また、画像認識部34は、例えば、画像データに含まれる物体の種類(例えば、人物、男性、女性)を識別してもよい。また、画像認識部34は、VMD(Video Motion Detector)機能を有し、画像データ内における動きの有無を検出してもよい。   Moreover, the image recognition part 34 may identify the kind (for example, person, man, woman) of the object contained in image data, for example. Further, the image recognition unit 34 may have a VMD (Video Motion Detector) function and detect the presence or absence of motion in the image data.

収音座標指定部35は、例えば、タッチパネル62又は画像認識部34から入力を受け付け、入力位置又は入力範囲の基準位置(例えば中心位置)に対応する座標を導出する。例えば、収音座標指定部35は、モニタ61の画面上に表示される画像において、操作者60が注目すべき位置(例えば図1の符号P1)の座標を、収音座標(x,y)として受け付ける。収音座標指定部35は、画像データに基づき表示される画像上の指定箇所(例えば収音座標)に対応する、収音部(例えばアレイマイク10)を基準とした方向を指定する第1の指定部の一例である。   The sound collection coordinate designating unit 35 receives an input from, for example, the touch panel 62 or the image recognition unit 34, and derives a coordinate corresponding to the input position or the reference position (for example, the center position) of the input range. For example, the sound pickup coordinate designating unit 35 uses the coordinates of the position (for example, symbol P1 in FIG. 1) to which the operator 60 should pay attention in the image displayed on the screen of the monitor 61 as the sound pickup coordinates (x, y) Accept as. The sound collection coordinate designating unit 35 designates a direction based on the sound collection unit (for example, the array microphone 10) corresponding to a designated place (for example, sound collection coordinates) on the image displayed based on the image data. It is an example of a designation | designated part.

操作者60は、例えば、モニタ61を見ながらタッチパネル62を操作する。操作者60は、タッチパネル62における移動操作(例えばドラッグ操作)に伴って画面上に表示されるポインタ(図示せず)の位置が移動するので、収音座標を画面上の表示範囲において変更できる。例えば、操作者60によるタッチパネル62のタッチ操作により、ポインタの座標が収音座標として収音座標指定部35に与えられる。操作者60は、監視システム100を用いて監視する監視者の一例である。   For example, the operator 60 operates the touch panel 62 while looking at the monitor 61. The operator 60 moves the position of a pointer (not shown) displayed on the screen in accordance with a moving operation (for example, a drag operation) on the touch panel 62, so that the sound pickup coordinates can be changed in the display range on the screen. For example, when the operator 60 touches the touch panel 62, the coordinates of the pointer are given to the sound collection coordinate designating unit 35 as sound collection coordinates. The operator 60 is an example of a monitor who monitors using the monitoring system 100.

範囲指定部44は、例えば、タッチパネル62から入力を受け付け、入力範囲に対応する座標を導出し、入力範囲の大きさを導出する。例えば、範囲指定部44は、モニタ61の画面上に表示される画像において、操作者60が注目すべき範囲の座標を、収音範囲A1として受け付け、収音範囲A1の大きさを導出する。範囲指定部44は、画像データに基づき表示される画像上の指定箇所(例えば収音範囲A1)に対応する、所定エリア内における所定範囲を指定する第2の指定部の一例である。   For example, the range specifying unit 44 receives an input from the touch panel 62, derives coordinates corresponding to the input range, and derives the size of the input range. For example, in the image displayed on the screen of the monitor 61, the range designating unit 44 accepts the coordinates of the range that the operator 60 should pay attention to as the sound collection range A1, and derives the size of the sound collection range A1. The range designation unit 44 is an example of a second designation unit that designates a predetermined range in a predetermined area corresponding to a specified location (for example, the sound collection range A1) on the image displayed based on the image data.

範囲指定部44は、例えば、タッチパネル62の画面上で、複数の指を使って同時に収音範囲A1を指定する操作により、収音範囲A1を指定し、収音範囲A1の大きさを指定(導出)してもよい。例えば、タッチパネル62の画面上でピンチイン操作(例えば図9(A)参照)又はピンチアウト操作(例えば図9(B)参照)を実施することにより、収音範囲A1が指定され、収音範囲A1の大きさが導出されてもよい。画面に含まれる範囲は、所定エリアの一例であり、収音範囲A1は、所定範囲の一例である。収音範囲A1の大きさを指定することを、単に収音範囲A1を指定するともいう。ピンチイン操作は、収音範囲A1の大きさを縮小する操作の一例であり、ピンチアウト操作は、収音範囲A1の大きさを拡大する操作の一例である。   The range designation unit 44 designates the sound collection range A1 and designates the size of the sound collection range A1 by, for example, an operation of simultaneously designating the sound collection range A1 using a plurality of fingers on the screen of the touch panel 62 ( Derivation). For example, by performing a pinch-in operation (for example, see FIG. 9A) or a pinch-out operation (for example, see FIG. 9B) on the screen of the touch panel 62, the sound collection range A1 is specified, and the sound collection range A1 May be derived. The range included in the screen is an example of a predetermined area, and the sound collection range A1 is an example of a predetermined range. Designating the size of the sound collection range A1 is simply referred to as designating the sound collection range A1. The pinch-in operation is an example of an operation for reducing the size of the sound collection range A1, and the pinch-out operation is an example of an operation for expanding the size of the sound collection range A1.

範囲指定部44は、例えば、2本の指のタッチ位置を直径とする円又は楕円の形状の範囲を、収音範囲A1として指定し、収音範囲A1の大きさを導出してもよい。範囲指定部44は、例えば、2本の指のタッチ位置を対角の点とする多角形の形状の範囲を、収音範囲A1として指定し、収音範囲A1の大きさを導出してもよい。範囲指定部44は、例えば、3本以上の指のタッチ位置を、収音範囲A1の輪郭点として指定してもよく、複雑な形状の範囲を指定し、収音範囲A1の大きさを導出してもよい。どのような形状の収音範囲A1とするかは、例えば予め定められ、図示しないメモリに記憶されていてもよい。更に、範囲指定部44は、例えば、タッチパネル62の画面上で、1つの指を使って時間差で複数の位置を指定し、この複数の位置を通る収音範囲A1を導出し、収音範囲A1の大きさを導出してもよい。   For example, the range specifying unit 44 may specify a range of a circle or an ellipse whose diameter is the touch position of two fingers as the sound collection range A1, and derive the size of the sound collection range A1. For example, the range designation unit 44 designates a polygonal shaped range having the touch positions of two fingers as diagonal points as the sound collection range A1, and derives the size of the sound collection range A1. Good. For example, the range designation unit 44 may designate the touch positions of three or more fingers as contour points of the sound collection range A1, designate a complex shape range, and derive the size of the sound collection range A1. May be. For example, the shape of the sound collection range A1 may be determined in advance and stored in a memory (not shown). Furthermore, for example, the range designating unit 44 designates a plurality of positions with a time difference using one finger on the screen of the touch panel 62, derives a sound collection range A1 passing through the plurality of positions, and collects the sound collection range A1. May be derived.

収音座標と収音範囲A1との関係が予め定められている場合、予め定められた関係に応じて、収音範囲A1又は収音座標が指定されてもよい。例えば、収音座標が指定された場合に、収音座標を中心とする所定の形状の収音範囲A1が指定され、収音範囲A1の大きさが導出されてもよい。例えば、収音範囲A1に輪郭を形成する複数の点が指定された場合に、収音範囲A1の大きさが導出され、収音範囲A1の中心位置の座標が収音座標として指定されてもよい。   When the relationship between the sound collection coordinates and the sound collection range A1 is predetermined, the sound collection range A1 or the sound collection coordinates may be designated according to the predetermined relationship. For example, when the sound collection coordinates are designated, a sound collection range A1 having a predetermined shape centered on the sound collection coordinates may be designated, and the size of the sound collection range A1 may be derived. For example, when a plurality of points forming an outline are designated in the sound collection range A1, the size of the sound collection range A1 is derived, and the coordinates of the center position of the sound collection range A1 are designated as sound collection coordinates. Good.

タッチパネル62以外の入力手段を用いて収音座標及び収音範囲A1の大きさを指定してもよい。例えば、監視制御装置にマウスが接続され、操作者60が、マウスを用いて所望の画像範囲をタッチしてもよい。例えば、また、指以外の入力手段(例えばスタイラスペン)により、タッチパネル62がタッチされ、収音座標及び収音範囲A1の大きさが指定されてもよい。   The sound collection coordinates and the size of the sound collection range A1 may be designated using input means other than the touch panel 62. For example, a mouse may be connected to the monitoring control device, and the operator 60 may touch a desired image range using the mouse. For example, the touch panel 62 may be touched by an input means other than a finger (for example, a stylus pen), and the sound collecting coordinates and the size of the sound collecting range A1 may be designated.

また、画像認識部34は、事前に登録されたパターンが画像データに含まれると認識した場合、認識されたパターンが存在するモニタ61における位置(例えば、図1の符号P1)の座標を、収音座標として収音座標指定部35に与えてもよい。認識されたパターンは、例えば、人物の全体、人物の顔である。   Further, when the image recognition unit 34 recognizes that a pre-registered pattern is included in the image data, the image recognition unit 34 stores the coordinates of the position on the monitor 61 where the recognized pattern exists (for example, symbol P1 in FIG. 1). You may give to the sound collection coordinate designation | designated part 35 as a sound coordinate. The recognized pattern is, for example, the entire person or the face of the person.

また、画像認識部34は、事前に登録されたパターンが画像データに含まれると認識した場合、認識されたパターンが存在するモニタ61における範囲を収音範囲A1とし、収音範囲A1の大きさの情報を範囲指定部44に与えてもよい。認識されたパターンは、例えば、人物の全体、人物の顔である。   When the image recognition unit 34 recognizes that a pre-registered pattern is included in the image data, the range in the monitor 61 where the recognized pattern exists is set as the sound collection range A1, and the size of the sound collection range A1. May be given to the range designation unit 44. The recognized pattern is, for example, the entire person or the face of the person.

音声デコーダ36は、ネットワーク処理部15からの複数チャネルの音声データを入力し、復号する。また、音声デコーダ36では、複数チャネルの音声データを処理する音声デコーダが各々独立して設けられてもよい。この場合、アレイマイク10のマイクロホン11A〜11Cの各々が収集した複数チャネルの音声データを同時に処理できる。   The audio decoder 36 receives and decodes multiple channels of audio data from the network processing unit 15. In the audio decoder 36, audio decoders that process audio data of a plurality of channels may be provided independently. In this case, audio data of a plurality of channels collected by each of the microphones 11A to 11C of the array microphone 10 can be processed simultaneously.

収音角度演算部38は、収音座標指定部35が決定した収音座標に基づいて、アレイマイク10の指向性の方向を表す収音角度θ1を導出(例えば算出)する。収音角度演算部38が導出した収音角度θ1が、指向性処理部37のパラメータとして入力される。例えば、収音座標と収音角度θ1とは1対1で対応しており、この対応情報を含む変換テーブルが図示しないメモリに格納されてもよい。収音角度演算部38は、この変換テーブルを参照し、収音角度θ1を導出してもよい。   The sound collection angle calculation unit 38 derives (for example, calculates) a sound collection angle θ <b> 1 that represents the directionality of the array microphone 10 based on the sound collection coordinates determined by the sound collection coordinate designating unit 35. The sound collection angle θ 1 derived by the sound collection angle calculation unit 38 is input as a parameter of the directivity processing unit 37. For example, the sound collection coordinates and the sound collection angle θ1 correspond one-to-one, and a conversion table including this correspondence information may be stored in a memory (not shown). The sound collection angle calculation unit 38 may derive the sound collection angle θ1 with reference to this conversion table.

範囲角度演算部45は、範囲指定部44が決定した収音範囲A1の大きさに基づいて、アレイマイク10の指向性の範囲の大きさ(指向性の広がり、指向性の強弱)を表す範囲角度θ2を導出(例えば算出)する。範囲角度演算部45が導出した範囲角度θ2が、指向性処理部37のパラメータとして入力される。例えば、収音範囲A1の大きさと範囲角度θ2とは1対1で対応しており、この対応情報を含む変換テーブルが図示しないメモリに格納されてもよい。範囲角度演算部45は、この変換テーブルを参照し、範囲角度θ2を導出してもよい。   The range angle calculation unit 45 represents the size of the directivity range (the spread of directivity, the strength of directivity) of the array microphone 10 based on the size of the sound collection range A1 determined by the range specification unit 44. The angle θ2 is derived (for example, calculated). The range angle θ2 derived by the range angle calculation unit 45 is input as a parameter of the directivity processing unit 37. For example, the size of the sound collection range A1 and the range angle θ2 have a one-to-one correspondence, and a conversion table including this correspondence information may be stored in a memory (not shown). The range angle calculation unit 45 may derive the range angle θ2 with reference to this conversion table.

ここで、収音範囲A1の大きさと範囲角度θ2との関係について説明する。
図10(A),(B)は、収音範囲A1及び範囲角度θ2の一例を示す模式図である。
Here, the relationship between the size of the sound collection range A1 and the range angle θ2 will be described.
10A and 10B are schematic diagrams illustrating an example of the sound collection range A1 and the range angle θ2.

図10(A)は、収音範囲A1が比較的小さい(狭い)場合の範囲角度θ2として、範囲角度θ2aを例示する。図10(A)では、モニタ61の中央部に位置する人物P11の方向を含み、人物P12,P13の方向を含まない範囲が、収音範囲A1として指定される。従って、図10(A)の状態で3人の人物P11〜P13で会話する場合、中央部の人物P11の音声を聴取できる。従って、人物P12,P13のプライバシーを保護できる。   FIG. 10A illustrates the range angle θ2a as the range angle θ2 when the sound collection range A1 is relatively small (narrow). In FIG. 10A, a range including the direction of the person P11 located at the center of the monitor 61 and not including the directions of the persons P12 and P13 is designated as the sound collection range A1. Therefore, when talking with three persons P11 to P13 in the state of FIG. 10A, the voice of the person P11 in the center can be heard. Accordingly, the privacy of the persons P12 and P13 can be protected.

図10(B)は、収音範囲A1が比較的大きい(広い)場合の範囲角度θ2として、範囲角度θ2bを例示する。図10(B)では、モニタ61に表示された3人の人物P11〜P13の方向を含む範囲が、収音範囲A1として指定される。従って、図10(B)の状態で3人の人物P11〜P13で会話する場合、人物P11〜P13の音声を聴取できる。従って、モニタ61に表示されたエリアにおける監視精度を向上でき、セキュリティを確保できる。   FIG. 10B illustrates the range angle θ2b as the range angle θ2 when the sound collection range A1 is relatively large (wide). In FIG. 10B, a range including the directions of the three persons P11 to P13 displayed on the monitor 61 is designated as the sound collection range A1. Therefore, when talking with three persons P11 to P13 in the state of FIG. 10B, the voices of the persons P11 to P13 can be heard. Therefore, the monitoring accuracy in the area displayed on the monitor 61 can be improved, and security can be ensured.

指向性処理部37は、収音角度演算部38から収音角度θ1の情報、範囲角度演算部45から範囲角度θ2の情報、及び音声デコーダ36から音声データを取得する。指向性処理部37は、収音角度θ1及び範囲角度θ2に応じて、音声デコーダ36から出力される複数チャネルの音声データを、所定のアルゴリズムに従って合成し、指向性を形成する(指向性処理)。   The directivity processing unit 37 acquires information on the sound collection angle θ 1 from the sound collection angle calculation unit 38, information on the range angle θ 2 from the range angle calculation unit 45, and audio data from the audio decoder 36. The directivity processing unit 37 synthesizes audio data of a plurality of channels output from the audio decoder 36 in accordance with a predetermined algorithm in accordance with the sound collection angle θ1 and the range angle θ2, and forms directivity (directivity processing). .

例えば、指向性処理部37は、監視対象の人物が存在する場所(注目点)の方向(指向性の方向)及び範囲(指向性の範囲)の音声成分の信号レベルを上げ、これ以外の方向の音声成分の信号レベルを下げる。指向性処理部37は、指向性処理された音声データを、検出部39及び音声出力部42へ出力する。   For example, the directivity processing unit 37 increases the signal level of the sound component in the direction (directivity direction) and range (directivity range) of the place (attention point) where the person to be monitored exists, and in other directions Reduce the signal level of the audio component. The directivity processing unit 37 outputs the sound data subjected to directivity processing to the detection unit 39 and the sound output unit 42.

指向性処理部37は、例えば、範囲角度θ2に応じて、公知の方法により、指向性処理する。例えば、指向性処理部37は、範囲角度θ2に応じて、指向性処理に用いる音声データのチャネル数、つまり収音された音声が用いられるマイクロホン11の数を決定してもよい。例えば、指向性処理部37は、範囲角度θ2が小さい程、指向性を強くするので、音声データのチャネル数を増やしてもよい。例えば、指向性処理部37は、範囲角度θ2が大きい程、指向性を弱くするので、音声データのチャネル数を減らしてもよい。   The directivity processing unit 37 performs directivity processing by a known method according to the range angle θ2, for example. For example, the directivity processing unit 37 may determine the number of channels of audio data used for directivity processing, that is, the number of microphones 11 in which collected sound is used, according to the range angle θ2. For example, since the directivity processing unit 37 increases the directivity as the range angle θ2 is smaller, the number of audio data channels may be increased. For example, since the directivity processing unit 37 weakens the directivity as the range angle θ2 is larger, the number of channels of audio data may be reduced.

例えば、指向性処理部37は、図10(A)では、アレイマイク10に含まれる16個のマイクロホン11のうち、8個のマイクロホン11により収音された音声データを用いて、指向性処理する。例えば、指向性処理部37は、図10(B)では、アレイマイク10に含まれる16個のマイクロホン11のうち、4個のマイクロホン11により収音された音声データを用いて、指向性処理する。   For example, in FIG. 10A, the directivity processing unit 37 performs directivity processing using audio data collected by eight microphones 11 out of 16 microphones 11 included in the array microphone 10. . For example, in FIG. 10B, the directivity processing unit 37 performs directivity processing using audio data collected by four microphones 11 out of 16 microphones 11 included in the array microphone 10. .

指向性処理部37は、音源推定部40により推定された音源(例えば監視対象の人物、異常音)の位置に応じて、指向性処理してもよい。指向性処理部37は、例えば、音源推定部40から音源の推定位置の情報を複数回取得し、取得の度に指向性の方向を変更(例えば切り替え)してもよい。これにより、音源が移動する場合でも、音源の位置を追尾して監視できる。つまり、音源の位置の追尾では、推定された音源の位置に対して、指向性が向けられる。   The directivity processing unit 37 may perform directivity processing in accordance with the position of the sound source (for example, a monitoring target person or abnormal sound) estimated by the sound source estimation unit 40. The directivity processing unit 37 may acquire, for example, information on the estimated position of the sound source from the sound source estimation unit 40 a plurality of times, and change (for example, switch) the directionality of the directivity each time it is acquired. Thereby, even when the sound source moves, the position of the sound source can be tracked and monitored. That is, in tracking the position of the sound source, directivity is directed to the estimated position of the sound source.

検出部39は、指向性処理部37により指向性処理された音声データを取得する。この音声データは、例えば、第1の指向性の方向及び範囲の音声成分が強調された第1の音声データと、第2の指向性の方向及び範囲の音声成分が強調された第2の音声データと、を含む。検出部39は、取得された音声データから、監視対象音(所定の音の一例)を検出する。つまり、検出部39は、音検出部としての機能を有する。なお、本実施形態では、音声成分の強調とは、例えば、複数のマイクロホンにより形成されたアレイマイクを利用し、フィルタリングにより特定の方向及び範囲からの音のみを抽出することである。   The detection unit 39 acquires sound data that has been subjected to directivity processing by the directivity processing unit 37. The audio data includes, for example, first audio data in which audio components in the first directivity direction and range are emphasized, and second audio in which audio components in the second directivity direction and range are emphasized. Data. The detection unit 39 detects a monitoring target sound (an example of a predetermined sound) from the acquired sound data. That is, the detection unit 39 has a function as a sound detection unit. In the present embodiment, the enhancement of the sound component is, for example, using an array microphone formed by a plurality of microphones and extracting only sound from a specific direction and range by filtering.

また、検出部39は、監視対象音が検出された場合、様々な処理を行う。検出部39の詳細について、後述する。検出部39は、監視対象音が検出された場合に所定の処理を行う処理部の一例である。   Moreover, the detection part 39 performs various processes, when the monitoring object sound is detected. Details of the detection unit 39 will be described later. The detection unit 39 is an example of a processing unit that performs a predetermined process when a monitoring target sound is detected.

音源推定部40は、音声デコーダ36からの音声データを取得し、検出部39により検出された監視対象音を発する音源の位置を推定する。音源は、例えば、会話中の人物、物音を発している人物、特定の人物(男性、女性)、物体(例えば緊急車両)、異常音(例えば、非常ベル、サイレン)の発生源、特定の環境音の発生源、その他の音源を広く含む。音源推定部40は、推定部の一例である。   The sound source estimation unit 40 acquires the audio data from the audio decoder 36 and estimates the position of the sound source that emits the monitoring target sound detected by the detection unit 39. The sound source is, for example, a person who is talking, a person who makes a sound, a specific person (male, female), an object (for example, an emergency vehicle), a source of abnormal sound (for example, an emergency bell, a siren), or a specific environment Includes a wide range of sound sources and other sound sources. The sound source estimation unit 40 is an example of an estimation unit.

音源推定部40は、例えば、公知の音源推定技術により、音源の位置を推定する。音源推定部40による音源の位置の推定結果は、例えば、指向性処理部37による異常音の追尾、指向性の切り替え、に用いられる。   The sound source estimation unit 40 estimates the position of the sound source by, for example, a known sound source estimation technique. The estimation result of the position of the sound source by the sound source estimation unit 40 is used, for example, for tracking abnormal sound and switching directivity by the directivity processing unit 37.

音源推定部40は、音源の位置の推定結果を、例えば画像出力部33又は音声出力部42へ出力してもよい。画像出力部33又は音声出力部42が、音源の位置の推定結果を提示することで、操作者60は、容易に音源の位置を把握できる。   The sound source estimation unit 40 may output the estimation result of the position of the sound source to the image output unit 33 or the audio output unit 42, for example. The image output unit 33 or the audio output unit 42 presents the estimation result of the position of the sound source, so that the operator 60 can easily grasp the position of the sound source.

音声出力部42は、例えば、指向性処理部37からの音声データをデジタル音声データからアナログ音声データに変換し、音声データを増幅し、スピーカ63に与える。   For example, the audio output unit 42 converts the audio data from the directivity processing unit 37 from digital audio data to analog audio data, amplifies the audio data, and supplies the amplified audio data to the speaker 63.

スピーカ63は、音声出力部42からの音声データに相当する音を出力する。従って、操作者60は、アレイマイク10により収音された音声データが処理された音を、スピーカ63から聴くことができる。スピーカ63は、提示部の一例である。   The speaker 63 outputs a sound corresponding to the sound data from the sound output unit 42. Therefore, the operator 60 can listen to the sound obtained by processing the audio data collected by the array microphone 10 from the speaker 63. The speaker 63 is an example of a presentation unit.

データ記録部43は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)を含み、ネットワーク処理部31が取得した複数チャネルの音声データ又は画像データを、順次記録してもよい。データ記録部43は、音声データ及び画像データを記録する場合、音声データの生成時刻と画像データの生成時刻とを対応づけて記録する。また、上記生成時刻の情報を、音声データ又は画像データと共に記録してもよい。データ記録部43は、監視制御装置30の内部に設けてもよいし、あるいは、監視制御装置30の外部に外部記録媒体として設けてもよい。   The data recording unit 43 includes, for example, an HDD (Hard Disk Drive) and an SSD (Solid State Drive), and may sequentially record audio data or image data of a plurality of channels acquired by the network processing unit 31. When recording audio data and image data, the data recording unit 43 records the generation time of the audio data and the generation time of the image data in association with each other. The generation time information may be recorded together with audio data or image data. The data recording unit 43 may be provided inside the monitoring control device 30 or may be provided as an external recording medium outside the monitoring control device 30.

また、データ記録部43は、例えば、記録された音声データ又は画像データを検索するための検索用タグの情報を記録する。データ記録部43に記録された検索用タグは、監視制御装置30における他の構成部により、適宜参照される。   Further, the data recording unit 43 records, for example, information on a search tag for searching for recorded audio data or image data. The search tag recorded in the data recording unit 43 is appropriately referred to by other components in the monitoring control device 30.

次に、検出部39の詳細について説明する。   Next, details of the detection unit 39 will be described.

検出部39は、例えば、指向性処理された音声データの信号レベルが第1の所定閾値以上又は第2の所定閾値以下である場合に、この音声データを監視対象音として検出する。音声データの信号レベルと比較される閾値の情報は、例えば図示しないメモリに保持される。音声データの信号レベルが第2の所定閾値以下となる場合には、例えば、機械の動作音が発生していたが、この機械が停止して動作音がなくなる場合を含む。   For example, when the signal level of the sound data subjected to directivity processing is equal to or higher than the first predetermined threshold or equal to or lower than the second predetermined threshold, the detection unit 39 detects the sound data as the monitoring target sound. The threshold information to be compared with the signal level of the audio data is held in a memory (not shown), for example. When the signal level of the audio data is equal to or lower than the second predetermined threshold, for example, there is a case where an operating sound of the machine is generated, but this machine stops and the operating sound disappears.

検出部39は、例えば、指向性処理された音声データに含まれる異常音を、監視対象音として検出する。例えば、異常音のパターンが図示しないメモリに記憶されており、検出部39は、音声データに異常音のパターンが含まれる場合、異常音を検出する。   The detecting unit 39 detects, for example, an abnormal sound included in the sound data subjected to directivity processing as a monitoring target sound. For example, an abnormal sound pattern is stored in a memory (not shown), and the detection unit 39 detects the abnormal sound when the sound data includes the abnormal sound pattern.

検出部39は、例えば、指向性処理された音声データに含まれる所定のキーワードを、監視対象音として検出する。例えば、キーワードの情報が図示しないメモリに記憶されており、検出部39は、音声データにメモリに記録されたキーワードが含まれる場合、キーワードを検出する。なお、キーワードが検出される場合、例えば、公知の音声認識技術が用いられてもよい。この場合、検出部39が、公知の音声認識機能を有する。   For example, the detection unit 39 detects a predetermined keyword included in the sound data subjected to directivity processing as the monitoring target sound. For example, keyword information is stored in a memory (not shown), and the detection unit 39 detects the keyword when the voice data includes the keyword recorded in the memory. When a keyword is detected, for example, a known voice recognition technique may be used. In this case, the detection unit 39 has a known voice recognition function.

なお、監視対象音は、予め設定されていてもよい。例えば、検出部39は、信号レベルが第1の所定閾値以上又は第2の所定閾値以下の音、異常音、キーワードの少なくとも1つを監視対象音として設定しておいてもよい。この設定情報は、例えば図示しないメモリに記憶される。   Note that the monitoring target sound may be set in advance. For example, the detection unit 39 may set at least one of a sound whose signal level is equal to or higher than a first predetermined threshold value or lower than a second predetermined threshold value, an abnormal sound, and a keyword as the monitoring target sound. This setting information is stored in a memory (not shown), for example.

検出部39は、上記の監視対象音を検出した場合、監視対象音を検出した旨の情報(検出情報)を、画像出力部33及び音声出力部42の少なくとも一方に送る。検出情報は、例えば、異常音、第1の所定閾値以上又は第2の所定閾値以下の信号レベルを有する音、所定のキーワードが検出された旨の警告情報(アラーム)を含む。   When detecting the monitoring target sound, the detection unit 39 sends information indicating that the monitoring target sound has been detected (detection information) to at least one of the image output unit 33 and the audio output unit 42. The detection information includes, for example, an abnormal sound, a sound having a signal level equal to or higher than a first predetermined threshold or lower than a second predetermined threshold, and warning information (alarm) indicating that a predetermined keyword has been detected.

また、検出部39は、監視対象音を検出した場合、データ記録部43に対して所定の情報を送る。検出部39は、監視対象音を検出した場合、例えば、検索用タグの情報をデータ記録部43へ送り、保持させてもよい。検索用タグは、監視対象音を含む音声データ又はこの音声データに対応する画像データを、データ記録部43から検索するためのタグである。   Further, when detecting the monitoring target sound, the detection unit 39 sends predetermined information to the data recording unit 43. When detecting the monitoring target sound, for example, the detection unit 39 may send information about the search tag to the data recording unit 43 and hold it. The search tag is a tag for searching the data recording unit 43 for audio data including the monitoring target sound or image data corresponding to the audio data.

検索用タグは、例えば、リアルタイムで取得された音声データ又は画像データと同じタイミングで、データ記録部43に記録されてもよい。また、検索用タグは、例えば、既にデータ記録部43に記録されている音声データ又は画像データに対応づけて、データ記録部43に記録されてもよい。   The search tag may be recorded in the data recording unit 43 at the same timing as, for example, audio data or image data acquired in real time. The search tag may be recorded in the data recording unit 43 in association with, for example, audio data or image data already recorded in the data recording unit 43.

例えば、タッチパネル62を介して、操作者60が検索用タグと一致する又は対応する情報を入力することで、画像デコーダ32又は音声デコーダ36は、データ記録部43に記録された音声データ又は画像データのうち、検索用タグと一致する又は対応するデータを検索し、取得する。従って、例えば、音声データ又は画像データを長時間録音又は録画する場合でも、検索時間を短縮できる。   For example, when the operator 60 inputs information corresponding to or corresponding to the search tag via the touch panel 62, the image decoder 32 or the audio decoder 36 records the audio data or image data recorded in the data recording unit 43. Among them, data that matches or corresponds to the search tag is searched and acquired. Therefore, for example, even when audio data or image data is recorded or recorded for a long time, the search time can be shortened.

また、操作者60が、例えばタッチパネル62を介して、複数の検索用タグが時系列に並べられたリストから特定の検索用タグを選択してもよい。この場合、操作者60は、生成時刻が最古の又は最新の検索用タグから順に特定の検索用タグを選択してもよい。また、操作者60は、例えばタッチパネル62を介して、計時部(不図示)により計時された時刻に対応する時刻に生成された検索用タグを、特定の検索用タグとして選択してもよい。画像デコーダ32又は音声デコーダ36は、データ記録部43に記録された音声データ又は画像データのうち、上記特定の検索用タグと一致する又は対応するデータを検索し、取得する。リストは、例えばデータ記録部43に記録される。   Further, the operator 60 may select a specific search tag from a list in which a plurality of search tags are arranged in time series, for example, via the touch panel 62. In this case, the operator 60 may select specific search tags in order from the search tag having the oldest generation time or the latest generation time. Further, the operator 60 may select, as a specific search tag, a search tag generated at a time corresponding to a time measured by a clock unit (not shown) via the touch panel 62, for example. The image decoder 32 or the audio decoder 36 searches for and acquires data that matches or corresponds to the specific search tag from the audio data or image data recorded in the data recording unit 43. The list is recorded in the data recording unit 43, for example.

検索用タグは、例えば、検出部39により監視対象音が検出された時刻の情報を含む。検索用タグは、例えば、監視対象音が発生した音源の方向(指向性の方向)の情報を含む。検索用タグは、例えば、監視対象音が発生した音源を含む範囲の大きさ(指向性の範囲の大きさ)の情報を含む。検索用タグは、例えば、監視対象音の種別(異常音、キーワードを含む音、所定閾値以上又は所定閾値以下の信号レベルの音)の情報を含む。音の種別は、例えば、検出部39により、公知の音声認識技術を用いて判定される。   The search tag includes, for example, information on the time when the monitoring target sound is detected by the detection unit 39. The search tag includes, for example, information on the direction (directivity direction) of the sound source in which the monitoring target sound is generated. The search tag includes, for example, information on the size of a range including the sound source in which the monitoring target sound is generated (the size of the directivity range). The search tag includes, for example, information on the type of sound to be monitored (abnormal sound, sound including a keyword, sound having a signal level equal to or higher than a predetermined threshold or lower than a predetermined threshold). The type of sound is determined by the detection unit 39 using a known voice recognition technique, for example.

検索用タグは、例えば、VMD機能により検出された監視対象音の音源の動きの有無又は動きの方向の情報を含む。動きの有無等が検出される音源は、例えば、上記の監視対象音の発生時刻又は発生時間帯にカメラ20により撮像された画像データに含まれる。VMD機能により検出された情報は、例えば動きが検出される度に、画像認識部34から検出部39へ送られる。   The search tag includes, for example, information on the presence or absence of movement of the sound source of the monitoring target sound detected by the VMD function or the direction of movement. The sound source from which the presence / absence of motion is detected is included in, for example, image data captured by the camera 20 at the time or time when the monitoring target sound is generated. The information detected by the VMD function is sent from the image recognition unit 34 to the detection unit 39 every time motion is detected, for example.

検索用タグは、例えば、画像認識部34により画像認識された監視対象音の音源の種別の情報を含む。音源の種別が認識される画像データは、例えば、監視対象音の発生時刻又は発生時間帯にカメラ20により撮像された画像データである。音源の種別の情報は、画像認識部34から検出部39へ送られる。   The search tag includes, for example, information on the type of the sound source of the monitoring target sound recognized by the image recognition unit 34. The image data in which the type of the sound source is recognized is, for example, image data captured by the camera 20 at the generation time or generation time zone of the monitoring target sound. Information on the type of the sound source is sent from the image recognition unit 34 to the detection unit 39.

検索用タグは、例えば、サムネイル画像(静止画)を含む。サムネイル画像は、例えば、監視対象音の発生時刻又は発生時間帯にカメラ20により撮像された画像データの少なくとも一部である。サムネイル画像は、画像認識部34から検出部39へ送られる。   The search tag includes, for example, a thumbnail image (still image). The thumbnail image is, for example, at least a part of the image data captured by the camera 20 at the generation time or generation time zone of the monitoring target sound. The thumbnail image is sent from the image recognition unit 34 to the detection unit 39.

検出部39は、監視対象音を検出した場合、ネットワーク処理部31により受信された音声データ又は画像データの録音又は録画を開始してもよい。例えば、ネットワーク処理部31は、所定期間(例えば30秒間)の音声データ又は画像データを一時的に蓄積し、検出部39により監視対象音が検出されない場合に、一時的に蓄積された音声データ又は画像データを破棄する。検出部39は、監視対象音を検出した場合、ネットワーク処理部31へ指示し、一時的に蓄積中の音声データ又は画像データを含めて、音声データ又は画像データをデータ記録部43へ記録するよう制御する(プレ録音、プレ録画)。また、データ記録部43は、ネットワーク処理部31からの音声データ又は画像データを記録する。プレ録音、プレ録画は、所定時間経過後に終了されてもよい。   When detecting the monitoring target sound, the detection unit 39 may start recording or recording the audio data or the image data received by the network processing unit 31. For example, the network processing unit 31 temporarily stores audio data or image data for a predetermined period (for example, 30 seconds), and when the detection target sound is not detected by the detection unit 39, the network processing unit 31 Discard the image data. When detecting the monitoring target sound, the detection unit 39 instructs the network processing unit 31 to record the audio data or the image data in the data recording unit 43 including the audio data or the image data that is temporarily stored. Control (pre-recording, pre-recording). The data recording unit 43 records audio data or image data from the network processing unit 31. Pre-recording and pre-recording may be terminated after a predetermined time has elapsed.

検出部39は、監視対象音として所定のキーワードを検出した場合、当該キーワードを含む音声データをデータ記録部43へ記録せず、消去してもよい。あるいは、検出部39は、監視対象音として所定のキーワードを検出した場合、音声データから当該キーワードの部分を消去してもよいし、当該キーワード以外の音により置換してもよい。検出部39は、キーワードの部分が消去又は置換された音声データを、データ記録部43へ記録させてもよい。これにより、キーワードが秘匿されるべき情報である場合に、秘匿情報やプライバシーを保護できる。このようなキーワードの消去又は置換に関する処理を、「キーワード加工」とも称する。なお、キーワード加工は、データ記録部43へ記録済みの音声データに対して行われてもよい。   When the detection unit 39 detects a predetermined keyword as the monitoring target sound, the detection unit 39 may delete the voice data including the keyword without recording it in the data recording unit 43. Alternatively, when the detection unit 39 detects a predetermined keyword as the monitoring target sound, the detection unit 39 may delete the portion of the keyword from the sound data, or may replace it with a sound other than the keyword. The detection unit 39 may cause the data recording unit 43 to record voice data from which the keyword portion has been deleted or replaced. Thereby, confidential information and privacy can be protected when the keyword is information to be concealed. Such processing related to keyword deletion or replacement is also referred to as “keyword processing”. The keyword processing may be performed on the audio data recorded in the data recording unit 43.

検出部39は、監視対象音を検出した場合、指向性処理部37に対して、指向性の方向及び指向性の範囲の大きさの少なくとも一方を切り替えるよう指示してもよい。この場合、指向性処理部37は、指向性の方向を所定の方向に切り替えてもよいし、指向性の範囲の大きさを所定の大きさに切り替えてもよい。   When detecting the monitoring target sound, the detection unit 39 may instruct the directivity processing unit 37 to switch at least one of the directivity direction and the directivity range. In this case, the directivity processing unit 37 may switch the directivity direction to a predetermined direction, or may switch the size of the directivity range to a predetermined size.

例えば、カメラ20の撮像可能範囲に含まれる複数地点(地点A、地点B)の情報を、予め図示しないメモリに登録しておく。地点Aの方向において監視対象音が検出された場合、指向性処理部37は、指向性の方向を地点Aの方向から地点A以外の地点(例えば地点B)の方向へ切り替えてもよい。   For example, information on a plurality of points (point A, point B) included in the imageable range of the camera 20 is registered in advance in a memory (not shown). When the monitoring target sound is detected in the direction of the point A, the directivity processing unit 37 may switch the directivity direction from the direction of the point A to a direction other than the point A (for example, the point B).

例えば、カメラ20の撮像可能範囲に含まれる複数範囲(範囲A、範囲B)の大きさの情報を、予め図示しないメモリに登録しておく。範囲Aにおいて監視対象音が検出された場合、指向性処理部37は、指向性の範囲の大きさを範囲Aの大きさから範囲A以外の大きさ(例えば範囲Bの大きさ)へ切り替えてもよい。   For example, information on the size of a plurality of ranges (range A, range B) included in the imageable range of the camera 20 is registered in advance in a memory (not shown). When the monitoring target sound is detected in the range A, the directivity processing unit 37 switches the size of the directivity range from the size of the range A to a size other than the range A (for example, the size of the range B). Also good.

検出部39は、監視対象音として所定のキーワードを検出した場合、当該キーワードを含む音声データをデータ記録部43へ記録させてもよい。この記録には、プレ録音、プレ録画を含んでもよい。これにより、操作者60が監視すべきキーワードを予め登録しておくことで、キーワードをトリガに記録開始でき、監視精度を向上できる。   When the detection unit 39 detects a predetermined keyword as the monitoring target sound, the detection unit 39 may record audio data including the keyword in the data recording unit 43. This recording may include pre-recording and pre-recording. As a result, by registering in advance the keyword to be monitored by the operator 60, it is possible to start recording with the keyword as a trigger and improve the monitoring accuracy.

次に、アレイマイク10、カメラ20及び各音源の配置状態について説明する。
図3は、アレイマイク10、カメラ20及び各音源の配置状態の一例を示す模式図である。
Next, the arrangement state of the array microphone 10, the camera 20, and each sound source will be described.
FIG. 3 is a schematic diagram illustrating an example of an arrangement state of the array microphone 10, the camera 20, and each sound source.

図3では、例えば、収音ユニット90が屋内の天井面101に固定される。図3では、アレイマイク10に含まれる複数のマイクロホン11A〜11Cは、天井面101(収音ユニット90の設置面)に沿って配列される。符号PAは、音源を示す。   In FIG. 3, for example, the sound collection unit 90 is fixed to the indoor ceiling surface 101. In FIG. 3, the plurality of microphones 11 </ b> A to 11 </ b> C included in the array microphone 10 are arranged along the ceiling surface 101 (installation surface of the sound collection unit 90). Reference sign PA indicates a sound source.

また、収音ユニット90は、アレイマイク10の基準方向とカメラ20の基準方向(例えば光軸方向)とが一致するよう天井面101に取り付けられる。アレイマイク10の基準方向に対する水平方向及び垂直方向と、カメラ20の基準方向に対する水平方向及び垂直方向とは、一致する。この水平方向はx軸方向,y軸方向であり、垂直方向はz軸方向である。   The sound collection unit 90 is attached to the ceiling surface 101 so that the reference direction of the array microphone 10 and the reference direction (for example, the optical axis direction) of the camera 20 coincide. The horizontal direction and the vertical direction with respect to the reference direction of the array microphone 10 coincide with the horizontal direction and the vertical direction with respect to the reference direction of the camera 20. The horizontal direction is the x-axis direction and the y-axis direction, and the vertical direction is the z-axis direction.

アレイマイク10の基準方向は、例えば、アレイマイク10における各マイクロホン11が配列された配列方向である。収音角度θ1は、アレイマイク10の基準方向と指向性の方向とにより形成される角度である。アレイマイク10の基準方向と指向性の方向とにより形成される収音角度θ1の水平方向成分は、水平角θ1hである。アレイマイク10の基準方向と指向性の垂直方向とにより形成される収音角度θ1の垂直方向成分は、垂直角θ1vである。   The reference direction of the array microphone 10 is, for example, the arrangement direction in which the microphones 11 in the array microphone 10 are arranged. The sound collection angle θ <b> 1 is an angle formed by the reference direction of the array microphone 10 and the directivity direction. The horizontal component of the sound collection angle θ1 formed by the reference direction of the array microphone 10 and the directivity direction is a horizontal angle θ1h. The vertical component of the sound collection angle θ1 formed by the reference direction of the array microphone 10 and the vertical direction of directivity is the vertical angle θ1v.

収音ユニット90では、アレイマイク10における各マイクロホン11が円周上に一定の間隔で配列されるので、配列面(x−y面)に沿う水平方向に対しては、どの向きに対しても音声データの周波数特性が同様になる。従って、図3の例では、収音角度θ1は、実質的に垂直角θ1vに依存する。そのため、以下の説明では主に、収音角度θ1として水平角θ1hを考慮しないで説明する。   In the sound collection unit 90, since the microphones 11 in the array microphone 10 are arranged at regular intervals on the circumference, the horizontal direction along the arrangement plane (xy plane) can be in any direction. The frequency characteristics of audio data are the same. Therefore, in the example of FIG. 3, the sound collection angle θ1 substantially depends on the vertical angle θ1v. Therefore, in the following description, the description will be made mainly without considering the horizontal angle θ1h as the sound collection angle θ1.

図3に示すように、収音ユニット90におけるアレイマイク10の収音角度θ1(垂直角θ1v)は、マイクロホン11A〜11Cの配列面と平行な方向(x軸,y軸)と、指向性の感度が最大になる方向と、のなす角度である。   As shown in FIG. 3, the sound collection angle θ1 (vertical angle θ1v) of the array microphone 10 in the sound collection unit 90 is in a direction parallel to the arrangement surface of the microphones 11A to 11C (x axis, y axis) and directivity. This is the angle between the direction of maximum sensitivity.

マイクロホン11A〜11Cは、マイクロホン11A〜11Cに向かって到来する音声を収音する。また、カメラ20は、直下(z軸方向)の方向を基準方向(光軸方向)として、カメラ20の周囲における例えば全方位を撮像する。   The microphones 11 </ b> A to 11 </ b> C pick up sounds coming toward the microphones 11 </ b> A to 11 </ b> C. Further, the camera 20 images, for example, all directions around the camera 20 with the direction directly below (z-axis direction) as a reference direction (optical axis direction).

なお、アレイマイク10による収音対象又はカメラ20による撮像対象は、全方位でなく、一部の方向に制限されてもよい。また、アレイマイク10又は監視制御装置30は、一部の方向に収音対象が制限された状態で収音された音声データを合成し、収音対象が全方位である場合と同様の音声データを生成してもよい。また、カメラ20又は監視制御装置30は、一部の方向に撮像対象が制限された状態で撮像された画像信号を合成し、撮像対象が全方位である場合と同様の画像信号を生成してもよい。   Note that the sound collection target by the array microphone 10 or the image pickup target by the camera 20 may be limited to a part of the direction instead of all directions. Moreover, the array microphone 10 or the monitoring control device 30 synthesizes the sound data collected in a state where the sound collection target is limited in some directions, and the same sound data as when the sound collection target is omnidirectional. May be generated. In addition, the camera 20 or the monitoring control device 30 synthesizes image signals captured in a state where the imaging target is limited in some directions, and generates an image signal similar to that when the imaging target is omnidirectional. Also good.

なお、例えば、アレイマイク10の基準方向とカメラ20の基準方向とが不一致である場合、水平角θ1hが考慮されてもよい。この場合、水平角θ1hと垂直角θ1vとを考慮し、例えば3次元(x,y,z)の位置又は方向に応じて、指向性が形成されてもよい。   For example, when the reference direction of the array microphone 10 and the reference direction of the camera 20 do not match, the horizontal angle θ1h may be considered. In this case, in consideration of the horizontal angle θ1h and the vertical angle θ1v, directivity may be formed according to, for example, a three-dimensional (x, y, z) position or direction.

次に、監視制御装置30の動作例について説明する。
図4は、監視制御装置30の動作例を示すフローチャートである。
Next, an operation example of the monitoring control device 30 will be described.
FIG. 4 is a flowchart illustrating an operation example of the monitoring control device 30.

図4は、リアルタイム動作例を示す。リアルタイム動作は、例えば、アレイマイク10が収音した音声データ、及びカメラ20が撮像した画像を、操作者60が監視制御装置30を用いてリアルタイムで監視する場合の動作である。   FIG. 4 shows an example of real-time operation. The real-time operation is, for example, an operation when the operator 60 monitors the audio data collected by the array microphone 10 and the image captured by the camera 20 in real time using the monitoring control device 30.

図4では、まず、ネットワーク処理部31は、カメラ20が送出した画像データを、ネットワーク50を経由して受信する。また、ネットワーク処理部31は、アレイマイク10が送出した複数チャネルの音声データを、ネットワーク50を経由して受信する(S11)。   In FIG. 4, first, the network processing unit 31 receives image data sent from the camera 20 via the network 50. Further, the network processing unit 31 receives the multi-channel audio data transmitted from the array microphone 10 via the network 50 (S11).

ネットワーク処理部31が受信した画像データは、画像デコーダ32により復号され、画像出力部33へ送られる。画像出力部33は、復号された画像データをモニタ61に出力し、モニタ61が画像を表示するよう制御する(S12)。また、ネットワーク処理部31は、画像データ及び音声データをデータ記録部43へ記録させてもよい。   The image data received by the network processing unit 31 is decoded by the image decoder 32 and sent to the image output unit 33. The image output unit 33 outputs the decoded image data to the monitor 61, and controls the monitor 61 to display an image (S12). The network processing unit 31 may cause the data recording unit 43 to record image data and audio data.

続いて、収音座標指定部35は、例えばタッチパネル62からの座標入力を受け付ける(S13)。範囲指定部44は、例えばタッチパネル62からの座標入力に基づく収音範囲を受け付け、収音範囲の大きさを導出する(S13)。例えば、操作者60は、モニタ61に表示される画像の表示位置を視認し、タッチパネル62を操作して注目すべき画像位置及び画像範囲を指定する。画像位置の指定及び画像範囲の指定は、どちらが先に行われてもよい。   Subsequently, the sound collection coordinate designating unit 35 receives a coordinate input from the touch panel 62, for example (S13). The range designation unit 44 receives a sound collection range based on coordinate input from the touch panel 62, for example, and derives the size of the sound collection range (S13). For example, the operator 60 visually recognizes the display position of the image displayed on the monitor 61 and operates the touch panel 62 to specify an image position and an image range to be noted. Either the designation of the image position or the designation of the image range may be performed first.

収音座標指定部35は、指定された画像範囲(画像位置)に対応する収音座標を導出する。範囲指定部44は、指定された画像範囲に対応する収音範囲の大きさを導出する。操作者60は、例えば、モニタ61に表示された画像に含まれる特定の人物の位置(例えば図1の符号P1)をタッチし、ピンチイン操作又はピンチアウト操作により範囲の大きさ(例えば図1の符号A1の大きさ)を指定する。これにより、収音座標指定部35は、収音座標及び範囲座標を取得する。上記画像範囲は、例えば、監視者が監視すべき監視領域の一例である。   The sound collection coordinate designating unit 35 derives sound collection coordinates corresponding to the designated image range (image position). The range designation unit 44 derives the size of the sound collection range corresponding to the designated image range. For example, the operator 60 touches the position of a specific person (for example, reference numeral P1 in FIG. 1) included in the image displayed on the monitor 61, and performs a pinch-in operation or a pinch-out operation (for example, in FIG. 1). The size of the code A1 is designated. Thereby, the sound collection coordinate designating unit 35 acquires the sound collection coordinates and the range coordinates. The image range is an example of a monitoring area that should be monitored by a monitor.

収音座標指定部35は、操作者60による画像範囲の位置の指定の代わりに、画像認識部34が画像から所定のパターンを認識し、所定のパターンが存在する座標を収音座標として取得してもよい。   In the sound collection coordinate designating unit 35, instead of designating the position of the image range by the operator 60, the image recognition unit 34 recognizes a predetermined pattern from the image, and acquires the coordinates where the predetermined pattern exists as the sound collection coordinates. May be.

範囲指定部44は、操作者60による画像範囲の大きさの指定の代わりに、画像認識部34が画像から所定のパターンを認識し、所定のパターンが存在する範囲の大きさの情報を収音範囲の大きさの情報として取得してもよい。   Instead of the designation of the size of the image range by the operator 60, the range designation unit 44 recognizes a predetermined pattern from the image and collects information on the size of the range where the predetermined pattern exists. It may be acquired as information on the size of the range.

収音角度演算部38は、収音座標指定部35により取得された収音座標を基に、例えば変換テーブルを参照し、又は公知の演算処理をすることにより、収音角度θ1を導出する(S14)。   The sound collection angle calculation unit 38 derives the sound collection angle θ1 by referring to, for example, a conversion table or performing known calculation processing based on the sound collection coordinates acquired by the sound collection coordinate designating unit 35 ( S14).

範囲角度演算部45は、範囲指定部44により取得された収音範囲の大きさの情報を基に、例えば変換テーブルを参照し、又は公知の演算処理をすることにより、範囲角度θ2を導出する(S14)。   The range angle calculation unit 45 derives the range angle θ2 by referring to, for example, a conversion table or performing a known calculation process based on the information on the size of the sound collection range acquired by the range specification unit 44. (S14).

導出された収音角度θ1及び範囲角度θ2は、指向性処理部37に入力される。指向性処理部37は、収音角度θ1及び範囲角度θ2に応じてアレイマイク10の指向性処理のためのパラメータを導出する。そして、指向性処理部37は、音声デコーダ36からの音声データに対し、導出されたパラメータを用いて指向性処理する(S15)。これにより、指向性処理部37が出力する音声データでは、例えば、収音角度θ1の方向かつ範囲角度θ2に対応する大きさの範囲に対して、アレイマイク10の収音感度が最大になる。   The derived sound collection angle θ1 and range angle θ2 are input to the directivity processing unit 37. The directivity processing unit 37 derives parameters for directivity processing of the array microphone 10 according to the sound collection angle θ1 and the range angle θ2. Then, the directivity processing unit 37 performs directivity processing on the audio data from the audio decoder 36 using the derived parameters (S15). Thereby, in the audio data output by the directivity processing unit 37, for example, the sound collection sensitivity of the array microphone 10 is maximized with respect to the direction of the sound collection angle θ1 and the range corresponding to the range angle θ2.

続いて、検出部39は、指向性処理された音声データから、監視対象音(例えば、異常音、所定のキーワード、第1の所定閾値以上又は第2の所定閾値以下の信号レベルの音)を検出する(S16)。監視対象音が検出されるまで、S16において待機される。   Subsequently, the detection unit 39 detects a monitoring target sound (for example, an abnormal sound, a predetermined keyword, a sound having a signal level equal to or higher than the first predetermined threshold value or lower than the second predetermined threshold value) from the directivity-processed audio data. Detect (S16). It waits in S16 until the monitoring target sound is detected.

続いて、画像認識部34は、例えば、検出された監視対象音の音源を含む画像データを画像認識し、監視対象音の音源の種別(例えば、人、男性、女性、物体、その他の音源)を識別してもよい(S17)。これにより、操作者60が音源の種別に応じて監視すべきか否かを容易に判断できるので、操作者60の負担を軽減でき、監視精度を向上できる。   Subsequently, the image recognition unit 34 recognizes the image data including the detected sound source of the monitoring target sound, for example, and types of the sound source of the monitoring target sound (for example, human, male, female, object, other sound sources) May be identified (S17). Thereby, since the operator 60 can easily determine whether or not to monitor according to the type of the sound source, the burden on the operator 60 can be reduced, and the monitoring accuracy can be improved.

画像認識部34は、例えば、VMD機能を用いて、監視対象音の音源の動きを検出してもよい(S17)。これにより、操作者60が音源の動きに容易に注目できるので、操作者60の負担を軽減でき、監視精度を向上できる。   The image recognition unit 34 may detect the movement of the sound source of the monitoring target sound using, for example, the VMD function (S17). As a result, the operator 60 can easily focus on the movement of the sound source, so that the burden on the operator 60 can be reduced and the monitoring accuracy can be improved.

画像認識部34は、画像認識された結果(例えば、監視対象音の音源の種別の情報、監視対象音の音源の動きの情報)を、検出部39へ送ってもよい。   The image recognition unit 34 may send the result of image recognition (for example, information on the type of the sound source of the monitoring target sound and information on the movement of the sound source of the monitoring target sound) to the detection unit 39.

なお、S17の処理は、省略されてもよい。例えば、S17の処理を省略するか否かの情報を、ユーザがタッチパネル62を介して設定しておいてもよいし、監視レベルに応じて図示しない制御部が設定してもよい。S17の処理を省略するか否かの情報は、例えば、図示しないメモリに保持される。   Note that the process of S17 may be omitted. For example, information on whether or not to omit the process of S17 may be set by the user via the touch panel 62, or a control unit (not shown) may be set according to the monitoring level. Information about whether or not to omit the processing of S17 is held in a memory (not shown), for example.

続いて、監視制御装置30は、検出部39による検出結果及び画像認識部34による画像認識結果の少なくとも一方に応じて、所定の処理(アクション)を行う(S18)。   Subsequently, the monitoring control device 30 performs a predetermined process (action) according to at least one of the detection result by the detection unit 39 and the image recognition result by the image recognition unit 34 (S18).

例えば、監視対象音が検出された場合、音源の種別が識別された場合、又は音源の動きが検出された場合、つまり監視トリガが発生した場合、検出部39は、画像により警告情報を通知するよう画像出力部33に指示してもよい。また、監視トリガが発生した場合、検出部39は、音声により警告情報を通知するよう音声出力部42に指示してもよい(S18)。また、検出部39は、監視トリガの種別に応じて、異なる警告音の鳴動、警告情報の表示を行わせてもよい。これにより、監視制御装置30の操作者60が、監視対象音の発生等を容易に認識でき、操作者60の負担を軽減でき、監視精度を向上できる。   For example, when the monitoring target sound is detected, the type of the sound source is identified, or the movement of the sound source is detected, that is, when a monitoring trigger is generated, the detection unit 39 notifies the warning information by an image. The image output unit 33 may be instructed to do so. When a monitoring trigger occurs, the detection unit 39 may instruct the voice output unit 42 to notify the warning information by voice (S18). Further, the detection unit 39 may cause different warning sounds and warning information to be displayed according to the type of the monitoring trigger. As a result, the operator 60 of the monitoring control device 30 can easily recognize the occurrence of the monitoring target sound, reduce the burden on the operator 60, and improve the monitoring accuracy.

例えば、検出部39は、監視トリガが発生した場合、検索用タグの情報をデータ記録部43へ記録させてもよい(S18)。これにより、操作者60が将来的に音声データ又は画像データを見直す場合でも、所望の音声データ又は画像データの特定の箇所を容易に検索でき、例えば検証時間を短縮できる。   For example, when a monitoring trigger occurs, the detection unit 39 may record information on the search tag in the data recording unit 43 (S18). Thereby, even when the operator 60 reviews audio data or image data in the future, it is possible to easily search for a specific portion of desired audio data or image data, and to shorten the verification time, for example.

例えば、監視トリガが発生した場合、検出部39は、プレ録音及びプレ録画の少なくとも一方を行うよう、ネットワーク処理部31へ指示してもよい(S18)。これにより、監視トリガが発生する前には、データ記録部43への録音又は録画を行わないことで、データ記録部43の活用効率を向上できる。また、監視トリガが発生した場合に、監視トリガ発生時点における音声データ又は画像データを確実に記録でき、例えば、将来的に検証材料として確認できる。   For example, when a monitoring trigger occurs, the detection unit 39 may instruct the network processing unit 31 to perform at least one of pre-recording and pre-recording (S18). Thereby, before the monitoring trigger is generated, the use efficiency of the data recording unit 43 can be improved by not recording or recording the data in the data recording unit 43. In addition, when a monitoring trigger occurs, audio data or image data at the time when the monitoring trigger occurs can be reliably recorded, and can be confirmed as a verification material in the future, for example.

例えば、監視対象音として所定のキーワードが検出された場合、検出部39は、キーワード加工してもよい(S18)。これにより、キーワードが秘匿情報である場合でも、秘匿情報を保護できる。また、キーワードを消去又は置換してキーワードを含む音声データを記録する場合には、秘匿情報を保護しながら、音声データを保存できる。   For example, when a predetermined keyword is detected as the monitoring target sound, the detection unit 39 may process the keyword (S18). Thereby, even when the keyword is confidential information, the confidential information can be protected. Further, when recording voice data including a keyword by deleting or replacing the keyword, the voice data can be stored while protecting confidential information.

例えば、監視トリガが発生した場合、検出部39は、指向性処理部37に対して、指向性の方向を切り替えるよう指示してもよい(S18)。これにより、例えば、プリセットされた方向を向くように指向性の方向を変更することで、音源の動きが予想される場合には監視対象音を追尾できる可能性を向上できる。   For example, when a monitoring trigger occurs, the detection unit 39 may instruct the directivity processing unit 37 to switch the direction of directivity (S18). Thereby, for example, by changing the direction of directivity so as to face the preset direction, it is possible to improve the possibility of tracking the monitoring target sound when the movement of the sound source is expected.

例えば、監視トリガが発生した場合、検出部39は、指向性処理部37に対して、指向性の範囲の大きさを切り替えるよう指示してもよい(S18)。これにより、例えば、プリセットされた範囲の大きさを指向性の範囲の大きさとするよう変更することで、音源の動きが予想される場合には監視対象音を追尾できる可能性を向上できる。例えば、指向性の範囲の大きさの変更により、カメラ20と音源との距離が変化する場合でも、監視対象音の追尾精度を向上できる。   For example, when a monitoring trigger occurs, the detection unit 39 may instruct the directivity processing unit 37 to switch the size of the directivity range (S18). Thus, for example, by changing the preset range size to the directivity range size, it is possible to improve the possibility of tracking the monitoring target sound when the movement of the sound source is expected. For example, even when the distance between the camera 20 and the sound source is changed by changing the size of the directivity range, the tracking accuracy of the monitoring target sound can be improved.

続いて、音源推定部40は、監視対象音の音源の位置を推定する(S19)。これにより、操作者60による監視精度を向上できる。   Subsequently, the sound source estimation unit 40 estimates the position of the sound source of the monitoring target sound (S19). Thereby, the monitoring accuracy by the operator 60 can be improved.

続いて、指向性処理部37は、所定のタイミングにおいて(例えば所定時間毎に)、音源推定部40から推定された監視対象音の音源の位置の情報を取得し、この音源の位置に指向性が向くように指向性の方向を切り替える(S20)。これにより、監視対象音の音源を追尾でき、操作者60は、音源の動向を容易に監視でき、監視精度を向上できる。   Subsequently, the directivity processing unit 37 acquires information on the position of the sound source of the monitoring target sound estimated from the sound source estimation unit 40 at a predetermined timing (for example, every predetermined time), and directivity is set to the position of the sound source. The direction of directivity is switched so as to face (S20). As a result, the sound source of the monitoring target sound can be tracked, and the operator 60 can easily monitor the trend of the sound source and improve the monitoring accuracy.

なお、S19,S20は省略されてもよい。   Note that S19 and S20 may be omitted.

図4の動作例によれば、操作者60は、モニタ61及びスピーカ63を介して、現在の監視領域における画像と音声とを同時に監視できる。特に、監視対象音の音声及び監視対象音の音源を含む画像を監視できる。また、画像を確認しながら、任意の監視領域を指定し、監視対象とすることができる。監視領域の指定は、例えば、監視領域の位置、範囲の大きさの指定を含む。また、監視対象音の検出に応じて様々な処理を行うことで、音声データ及び画像データの活用性が増し、利便性を向上できる。   According to the operation example of FIG. 4, the operator 60 can simultaneously monitor the image and sound in the current monitoring area via the monitor 61 and the speaker 63. In particular, it is possible to monitor an image including the sound of the monitoring target sound and the sound source of the monitoring target sound. In addition, an arbitrary monitoring area can be designated as a monitoring target while confirming an image. The designation of the monitoring area includes, for example, designation of the position of the monitoring area and the size of the range. Further, by performing various processes according to the detection of the monitoring target sound, the usability of the audio data and the image data is increased, and the convenience can be improved.

次に、監視システム100による指向性処理の詳細について説明する
図5は、指向性処理に係る基本構成例を示す模式図である。図5では、指向性処理部37には、複数の遅延器37bA,37bB,37bCと、加算器37cとが含まれ、これらの処理により指向性が形成されてもよい。
Next, details of directivity processing by the monitoring system 100 will be described. FIG. 5 is a schematic diagram illustrating a basic configuration example related to directivity processing. In FIG. 5, the directivity processing unit 37 includes a plurality of delay units 37bA, 37bB, 37bC and an adder 37c, and directivity may be formed by these processes.

マイクロホン11A〜11Cが出力するアナログ音声データを、A/D変換器13A,13B,13Cがデジタル音声データに変換し、変換されたデジタル音声データに対して、指向性処理部37が指向性処理する。なお、アレイマイク10に含まれるマイクロホンの数(n)、A/D変換器の数(n)、及び指向性処理部37に含まれる遅延器の数(n)は、必要に応じて増減される。   Analog audio data output from the microphones 11A to 11C is converted into digital audio data by the A / D converters 13A, 13B, and 13C, and the directivity processing unit 37 performs directional processing on the converted digital audio data. . Note that the number of microphones included in the array microphone 10 (n), the number of A / D converters (n), and the number of delay units included in the directivity processing unit 37 (n) are increased or decreased as necessary. The

図5では、複数のマイクロホン11A〜11Cは、相互に所定距離離間された位置に配置されるので、1つの音源80が発した音波が各々のマイクロホン11A〜11Cに到達するまでの時間には、相対的な時間差(到達時間差)が生じる。音源80は、例えば監視対象音の音源である。   In FIG. 5, the plurality of microphones 11 </ b> A to 11 </ b> C are arranged at positions separated from each other by a predetermined distance, so that the time until the sound wave emitted by one sound source 80 reaches each microphone 11 </ b> A to 11 </ b> C is A relative time difference (arrival time difference) occurs. The sound source 80 is a sound source of the monitoring target sound, for example.

上記到達時間差の影響があるため、複数のマイクロホン11A〜11Cがそれぞれ検出した音声データをそのまま加算すると、位相差のある複数の音声データの加算によって信号レベルが減衰することがある。そこで、複数の音声データのそれぞれに、遅延器37bA〜37bCにより時間遅延を与えて位相を調整し、位相が調整された音声データ同士を加算器37cにより加算する。これにより、位相が一致する複数の音声データが加算され、信号レベルが増大する。   Because of the influence of the arrival time difference, if the audio data detected by each of the plurality of microphones 11A to 11C is added as it is, the signal level may be attenuated by adding the plurality of audio data having a phase difference. Therefore, each of the plurality of audio data is given a time delay by the delay devices 37bA to 37bC to adjust the phase, and the audio data whose phases have been adjusted are added by the adder 37c. Thereby, a plurality of audio data having the same phase are added, and the signal level is increased.

図5では、上記到達時間差は、音源80からアレイマイク10の筐体入射面121に入射される音波の到来方向(収音角度θ1に相当)に応じて変化する。例えば、特定の方向(θ1)から到来した音波を複数のマイクロホン11A〜11Cが検出した場合、加算器37cに入力される複数の音声データの位相が一致し、加算器37cが出力する音声データの信号レベルが増大する。一方、特定の方向(θ1)以外から到来する音波では、加算器37cに入力される複数の音声データに位相差が生じ、加算器37cが出力する音声データの信号レベルが減衰する。よって、特定の方向(θ1)から到来する音波に対して感度が上がるように、アレイマイク10の指向性を形成できる。   In FIG. 5, the arrival time difference changes according to the arrival direction (corresponding to the sound collection angle θ <b> 1) of the sound wave incident from the sound source 80 to the housing incident surface 121 of the array microphone 10. For example, when the plurality of microphones 11A to 11C detect sound waves that have arrived from a specific direction (θ1), the phases of the plurality of sound data input to the adder 37c match, and the sound data output from the adder 37c The signal level increases. On the other hand, in the sound wave coming from other than the specific direction (θ1), a phase difference occurs in a plurality of sound data input to the adder 37c, and the signal level of the sound data output from the adder 37c is attenuated. Therefore, the directivity of the array microphone 10 can be formed so that the sensitivity is increased with respect to the sound wave coming from the specific direction (θ1).

収音角度θ1の方向から監視対象音の音波が筐体入射面121に到来する場合、(式1)により表される各遅延時間D1,D2,D3が、各遅延器37bA,37bB,37bCの遅延時間として割り当てられる。   When the sound wave of the monitoring target sound arrives at the housing incident surface 121 from the direction of the sound collection angle θ1, the delay times D1, D2, and D3 represented by (Equation 1) correspond to the delay devices 37bA, 37bB, and 37bC. Assigned as delay time.

D1=L1/Vs=d(n−1)cosθ1/Vs
D2=L2/Vs=d(n−2)cosθ1/Vs ・・・(式1)
D3=L3/Vs=d(n−3)cosθ1/Vs
但し、
L1:1番目のマイクロホンとn番目のマイクロホンとの間の音波到達距離の差(既知の定数)
L2:2番目のマイクロホンとn番目のマイクロホンとの間の音波到達距離の差(既知の定数)
L3:3番目のマイクロホンとn番目のマイクロホンとの間の音波到達距離の差(既知の定数)
Vs:音速(既知の定数)
d:マイクロホンの配置間隔(既知の定数)
なお、一例として、図2に示したシステム構成の場合、n=3であり、図1に示した収音ユニット90の場合、n=16である。
D1 = L1 / Vs = d (n−1) cos θ1 / Vs
D2 = L2 / Vs = d (n−2) cos θ1 / Vs (Expression 1)
D3 = L3 / Vs = d (n−3) cos θ1 / Vs
However,
L1: Difference in sound wave distance between the first microphone and the nth microphone (known constant)
L2: Difference in sound wave distance between the second microphone and the nth microphone (known constant)
L3: Difference in sound wave arrival distance between the third microphone and the nth microphone (known constant)
Vs: speed of sound (known constant)
d: Microphone arrangement interval (known constant)
As an example, in the system configuration shown in FIG. 2, n = 3, and in the sound collection unit 90 shown in FIG. 1, n = 16.

(式1)に示すように、特定の方向θ1からアレイマイク10に到来する音波に指向性が合わせられる場合、筐体入射面121における各マイクロホン11A〜11Cに対する音波の到達時間差に対応して、各遅延器37bA,37bB,37bCに遅延時間D1〜D3が割り当てられる。   As shown in (Equation 1), when the directivity is matched with the sound wave arriving at the array microphone 10 from the specific direction θ1, in response to the arrival time difference of the sound wave with respect to each microphone 11A to 11C on the housing incident surface 121, Delay times D1 to D3 are assigned to the delay units 37bA, 37bB, and 37bC.

例えば、指向性処理部37は、収音角度演算部38からの収音角度θ1と(式1)とに基づき、各遅延時間D1〜D3を取得し、遅延時間D1〜D3を各遅延器37bA〜37bCに割り当てる。これにより、収音角度θ1の方向から筐体入射面121に到来する音波の音声データを強調し、アレイマイク10の指向性を形成できる。   For example, the directivity processing unit 37 acquires the delay times D1 to D3 based on the sound collection angle θ1 from the sound collection angle calculation unit 38 and (Equation 1), and uses the delay times D1 to D3 as the delay units 37bA. Assign to ~ 37bC. Thereby, the sound data of the sound wave arriving at the housing incident surface 121 from the direction of the sound collection angle θ1 can be emphasized, and the directivity of the array microphone 10 can be formed.

なお、例えば、割り当てられた遅延時間D1〜D3、(式1)における既知の定数は、監視制御装置30内の図示しないメモリに記憶される。   For example, the assigned delay times D <b> 1 to D <b> 3 and known constants in (Equation 1) are stored in a memory (not shown) in the monitoring control device 30.

監視システム100によれば、例えば、リアルタイムに受信された画像データにおいて、監視制御装置30の操作者60からの監視領域の指定を受け付け、監視領域に対応する方向及び範囲に指向性を向けた状態で、異常の有無を監視できる。監視トリガが発生した場合には、監視制御装置30が様々な処理を行うことで、アレイマイク10により収音された音声データ及びカメラ20により撮像された画像データの活用を促進し、操作者60の利便性を向上できる。   According to the monitoring system 100, for example, in the image data received in real time, the designation of the monitoring area from the operator 60 of the monitoring control device 30 is accepted, and the directivity is directed to the direction and range corresponding to the monitoring area With this, you can monitor whether there is an abnormality. When a monitoring trigger occurs, the monitoring control device 30 performs various processes, thereby promoting the utilization of audio data collected by the array microphone 10 and image data captured by the camera 20, and the operator 60. Can improve convenience.

(第2の実施形態)
第2の実施形態では、監視システムが、音声データ又は画像データを記録するレコーダを、監視制御装置とは別体に備えることを想定する。
(Second Embodiment)
In the second embodiment, it is assumed that the monitoring system includes a recorder that records audio data or image data separately from the monitoring control device.

図6は実施形態における監視システム100Bの概要図である。図6と図1とを比較すると、監視システム100Bが、レコーダ70を備える点が異なる。レコーダ70は、ネットワーク50に接続される。レコーダ70は記憶装置の一例である。レコーダ70は、例えば、アレイマイク10により収音された音声データ、カメラ20により撮像された画像データ、を記憶する。   FIG. 6 is a schematic diagram of a monitoring system 100B in the embodiment. 6 and 1 are different in that the monitoring system 100B includes a recorder 70. The recorder 70 is connected to the network 50. The recorder 70 is an example of a storage device. The recorder 70 stores, for example, audio data collected by the array microphone 10 and image data captured by the camera 20.

図7は監視システム100Bの構成例を示すブロック図である。図7の監視システム100Bにおいて、図2に示した監視システム100と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。   FIG. 7 is a block diagram illustrating a configuration example of the monitoring system 100B. In the monitoring system 100B of FIG. 7, the same components as those of the monitoring system 100 shown in FIG. 2 are denoted by the same reference numerals, and description thereof is omitted or simplified.

監視システム100Bは、アレイマイク10、カメラ20、監視制御装置30B、及びレコーダ70を備える。   The monitoring system 100B includes an array microphone 10, a camera 20, a monitoring control device 30B, and a recorder 70.

監視制御装置30Bは、図2に示した監視制御装置30と比較すると、データ記録部43を備えていない。監視制御装置30Bは、データ記録部43へデータを記録又はデータ記録部43からデータを読み出す代わりに、レコーダ70が備えるデータ記録部72へアクセスしてデータを記録又はデータ記録部72からデータを読み出す。監視制御装置30Bとレコーダ70との間でデータが通信される場合、データは、監視制御装置30Bのネットワーク処理部31、ネットワーク50、及びレコーダ70のネットワーク処理部71を経由して通信される。   The monitoring control device 30B does not include the data recording unit 43 as compared with the monitoring control device 30 illustrated in FIG. Instead of recording data to the data recording unit 43 or reading data from the data recording unit 43, the monitoring control device 30 </ b> B accesses the data recording unit 72 included in the recorder 70 to record data or read data from the data recording unit 72. . When data is communicated between the monitoring control device 30B and the recorder 70, the data is communicated via the network processing unit 31, the network 50 of the monitoring control device 30B, and the network processing unit 71 of the recorder 70.

レコーダ70は、ネットワーク処理部71及びデータ記録部72を備える。レコーダ70は、例えば、CPU、DSP、ROM、又はRAMを含み、CPU又はDSPにより、ROM又はRAMに記録された制御用のプログラムを実行することにより、各種機能を実現する。   The recorder 70 includes a network processing unit 71 and a data recording unit 72. The recorder 70 includes, for example, a CPU, DSP, ROM, or RAM, and realizes various functions by executing a control program recorded in the ROM or RAM by the CPU or DSP.

ネットワーク処理部71は、例えば、アレイマイク10から送出される複数チャネルの音声データ、又はカメラ20から送出される画像データを、ネットワーク50を経由して取得する。ネットワーク処理部71は、例えば、データ記録部72が記録した音声データ又は画像データを、ネットワーク50に送出する。   The network processing unit 71 acquires, for example, audio data of a plurality of channels transmitted from the array microphone 10 or image data transmitted from the camera 20 via the network 50. The network processing unit 71 sends, for example, audio data or image data recorded by the data recording unit 72 to the network 50.

データ記録部72は、図2に示した監視制御装置30のデータ記録部43と同様の構成及び機能を有する。また、データ記録部72は、データ記録部43が記録するデータと同様のデータ(例えば、音声データ、画像データ、検索用タグの情報)を記録する。   The data recording unit 72 has the same configuration and function as the data recording unit 43 of the monitoring control device 30 shown in FIG. Further, the data recording unit 72 records data similar to the data recorded by the data recording unit 43 (for example, audio data, image data, search tag information).

例えば、ネットワーク処理部71が、監視制御装置30Bから音声データ、画像データ、検索用タグの情報が受信された場合、データ記録部72が、受信されたデータを対応付けて記録してもよい。また、ネットワーク処理部71が、監視制御装置30Bから検索用タグの情報が受信され、データ記録部72に既に音声データ又は画像データが記録されている場合、データ記録部72は、検索用タグの情報を、音声データ又は画像データに対応付けて記録してもよい。   For example, when the network processing unit 71 receives audio data, image data, and search tag information from the monitoring control device 30B, the data recording unit 72 may record the received data in association with each other. In addition, when the network processing unit 71 receives the information of the search tag from the monitoring control device 30B and the audio data or the image data is already recorded in the data recording unit 72, the data recording unit 72 Information may be recorded in association with audio data or image data.

また、データ記録部72に記録された音声データ、画像データ、及び検索用タグの情報は、例えばCPUにより所定の命令が実行されることで、データ記録部72から読み出され、ネットワーク処理部71及びネットワーク50を経由して監視制御装置30Bに送信される。   The audio data, the image data, and the search tag information recorded in the data recording unit 72 are read from the data recording unit 72 and executed by, for example, a predetermined command by the CPU, and the network processing unit 71. And transmitted to the monitoring control device 30B via the network 50.

例えば、ネットワーク50を経由して監視制御装置30Bから、所定の情報が受信された場合、データ記録部72は、検索用タグとして記録されている情報と、受信された所定の情報とが一致又は対応するか否かを判定する。データ記録部72は、両者が一致すると判定した場合、検索用タグに対応付けられた音声データ又は画像データを検索し、検索された音声データ又は画像データをネットワーク50へ送出する。   For example, when predetermined information is received from the monitoring control apparatus 30B via the network 50, the data recording unit 72 matches the information recorded as the search tag with the received predetermined information or It is determined whether or not it corresponds. If the data recording unit 72 determines that the two match, the data recording unit 72 searches the audio data or image data associated with the search tag and sends the searched audio data or image data to the network 50.

このように、レコーダ70に記録された検索用タグを用いることで、過去に記録された音声データ又は画像データを容易に検索でき、検索時間を短縮でき、操作者60の利便性を向上できる。   As described above, by using the search tag recorded in the recorder 70, it is possible to easily search for audio data or image data recorded in the past, shorten the search time, and improve the convenience of the operator 60.

次に、監視制御装置30Bの動作例について説明する。
図8は、監視制御装置30Bの動作例を示すフローチャートである。
Next, an operation example of the monitoring control device 30B will be described.
FIG. 8 is a flowchart illustrating an operation example of the monitoring control device 30B.

図8は、レコーダ出力再生動作例を示す。レコーダ出力再生動作例は、例えば、レコーダ70に記録された過去の音声データ及び画像信号を、操作者60が監視制御装置30Bを用いて分析する場合の動作である。なお、図8において、図4の処理と同様の処理を行うステップについては、同一のステップ番号を付し、説明を省略又は簡略化する。   FIG. 8 shows an example of the recorder output reproduction operation. The recorder output reproduction operation example is, for example, an operation when the operator 60 analyzes past audio data and image signals recorded in the recorder 70 using the monitoring control device 30B. In FIG. 8, steps that perform the same processing as the processing in FIG. 4 are given the same step numbers, and description thereof is omitted or simplified.

監視システム100Bでは、過去にカメラ20が撮像した画像データ及びアレイマイク10が収音した複数チャネルの音声データがレコーダ70に記録されている場合、記録された画像データ及び音声データをレコーダ70から読み出すことができる。   In the monitoring system 100 </ b> B, when image data captured by the camera 20 in the past and audio data of a plurality of channels collected by the array microphone 10 are recorded in the recorder 70, the recorded image data and audio data are read from the recorder 70. be able to.

監視制御装置30Bは、例えば、操作者60からの入力操作に従い、レコーダ70に記録された特定の画像データ及び音声データを読み出すよう、レコーダ70に指示する。この場合、上記特定の画像データ及び音声データがレコーダ70から読み出され、ネットワーク50を経由してネットワーク処理部31により受信される(S21)。   The monitoring control device 30B instructs the recorder 70 to read out specific image data and audio data recorded in the recorder 70, for example, in accordance with an input operation from the operator 60. In this case, the specific image data and audio data are read from the recorder 70 and received by the network processing unit 31 via the network 50 (S21).

続いて、図8のS12〜S20の処理を行う。なお、S17,S19,S20の処理は省略されてもよい。   Then, the process of S12-S20 of FIG. 8 is performed. Note that the processing of S17, S19, and S20 may be omitted.

図8の動作例によれば、操作者60は、モニタ61及びスピーカ63を介して、過去の監視領域における画像と音声とを同時に監視できる。特に、監視対象音の音声及び監視対象音の音源を含む画像を監視できる。また、画像を確認しながら、任意の監視領域を指定し、監視対象とすることができる。監視領域の指定は、例えば、監視領域の位置、範囲の大きさの指定を含む。また、監視対象音の検出に応じて様々な処理を行うことで、音声データ及び画像データの活用性が増し、利便性を向上できる。   According to the operation example of FIG. 8, the operator 60 can simultaneously monitor images and sounds in the past monitoring area via the monitor 61 and the speaker 63. In particular, it is possible to monitor an image including the sound of the monitoring target sound and the sound source of the monitoring target sound. In addition, an arbitrary monitoring area can be designated as a monitoring target while confirming an image. The designation of the monitoring area includes, for example, designation of the position of the monitoring area and the size of the range. Further, by performing various processes according to the detection of the monitoring target sound, the usability of the audio data and the image data is increased, and the convenience can be improved.

また、検索用タグが、記録された画像データ又は音声データに対応づけて記録されることで、例えば、後に監視対象音に係るデータを検索する場合に、素早く検索できる。このように、監視対象音の検出に応じて様々な処理を行うことで、音声データ及び画像データの活用性が増し、利便性を向上できる。   In addition, since the search tag is recorded in association with the recorded image data or audio data, for example, when searching for data related to the monitoring target sound later, it is possible to quickly search. As described above, by performing various processes according to the detection of the monitoring target sound, the usability of the audio data and the image data is increased, and the convenience can be improved.

なお、図8のレコーダ出力再生動作例は、第1の実施形態においてデータ記録部43に記録されたデータを扱う場合の動作にも適用可能である。   Note that the recorder output reproduction operation example of FIG. 8 can also be applied to an operation when handling data recorded in the data recording unit 43 in the first embodiment.

監視システム100Bによれば、例えば、過去に記録された画像データにおいて、監視制御装置30Bの操作者60からの監視領域の指定を受け付け、監視領域に対応する方向及び範囲に指向性を向けた状態で、異常の有無を監視できる。監視トリガが発生した場合には、監視制御装置30Bが様々な処理を行うことで、アレイマイク10により収音された音声データ及びカメラ20により撮像された画像データの活用を促進し、操作者60の利便性を向上できる。   According to the monitoring system 100B, for example, in the image data recorded in the past, the designation of the monitoring area from the operator 60 of the monitoring control apparatus 30B is accepted, and the directivity is directed to the direction and range corresponding to the monitoring area With this, you can monitor whether there is an abnormality. When a monitoring trigger occurs, the monitoring control device 30B performs various processes, thereby promoting the utilization of the audio data collected by the array microphone 10 and the image data captured by the camera 20, and the operator 60 Can improve convenience.

なお、本発明は、上記実施形態の構成に限られるものではなく、特許請求の範囲で示した機能、または本実施形態の構成が持つ機能が達成できる構成であればどのようなものであっても適用可能である。   The present invention is not limited to the configuration of the above-described embodiment, and any configuration can be used as long as the functions shown in the claims or the functions of the configuration of the present embodiment can be achieved. Is also applicable.

例えば、上記実施形態では、監視制御装置30,30Bが備える音声処理に係る一部の構成部を、アレイマイク10又はカメラ20が備えてもよい。アレイマイク10は、例えば、画像認識部34、収音座標指定部35、範囲指定部44、収音角度演算部38、範囲角度演算部45、指向性処理部37、検出部39、音源推定部40、の一部又は全部を有してもよい。これにより、監視制御装置30,30Bの処理負荷を低減できる。なお、アレイマイク10が音声処理に係る一部の構成部を有する場合には、監視制御装置30,30Bとアレイマイク10との間において、ネットワーク50を介して適宜必要なデータが通信される。   For example, in the above-described embodiment, the array microphone 10 or the camera 20 may include some components related to the audio processing included in the monitoring control devices 30 and 30B. The array microphone 10 includes, for example, an image recognition unit 34, a sound collection coordinate designation unit 35, a range designation unit 44, a sound collection angle calculation unit 38, a range angle calculation unit 45, a directivity processing unit 37, a detection unit 39, and a sound source estimation unit. You may have a part or all of 40. Thereby, the processing load of the monitoring control apparatuses 30 and 30B can be reduced. In the case where the array microphone 10 has some components related to voice processing, necessary data is communicated as appropriate via the network 50 between the monitoring control devices 30 and 30B and the array microphone 10.

例えば、上記実施形態では、複数のマイクロホン11が1つの円周上に一定の間隔で配置されたアレイマイク10を例示したが、各マイクロホン11の配列は異なる配列でもよい。例えば、単方向(例えばx軸方向)に沿って一列に一定の間隔で配列されてもよい。また、2方向(例えばx軸方向,y軸方向)に沿って十字型に一定の間隔で配列されてもよい。また、径の異なる2つの円周上に一定の間隔で配列されてもよい。   For example, in the above-described embodiment, the array microphones 10 in which the plurality of microphones 11 are arranged at a constant interval on one circumference are illustrated, but the arrangements of the microphones 11 may be different. For example, they may be arranged in a line along a single direction (for example, the x-axis direction) at regular intervals. Further, they may be arranged in a cross shape at regular intervals along two directions (for example, the x-axis direction and the y-axis direction). Moreover, you may arrange | position at a fixed space | interval on two circumferences from which a diameter differs.

例えば、上記実施形態では、監視制御装置30,30Bが、カメラ20を用いずに、実際の空間的な監視範囲の方向とアレイマイク10の収音角度θ1とを対応づけ、プリセットしてもよい。つまり、監視制御装置30,30Bの図示しないメモリが、上記監視範囲の方向と収音角度θ1との対応情報を保持してもよい。この場合、例えば、ユーザがタッチパネル62等を介して監視範囲の方向を指定すると、収音角度演算部38が、メモリに保持された対応情報を参照して、収音角度θ1を導出してもよい。また、例えば、ユーザがタッチパネル62等を介して収音角度θ1を直接指定し、指定されたデータを収音角度演算部38により導出されたデータとして扱ってもよい。これにより、カメラ20を用いずに、指向性の方向を決定できる。   For example, in the above embodiment, the monitoring control devices 30 and 30B may associate and preset the direction of the actual spatial monitoring range and the sound collection angle θ1 of the array microphone 10 without using the camera 20. . That is, the memory (not shown) of the monitoring control devices 30 and 30B may hold the correspondence information between the direction of the monitoring range and the sound collection angle θ1. In this case, for example, when the user designates the direction of the monitoring range via the touch panel 62 or the like, the sound collection angle calculation unit 38 refers to the correspondence information held in the memory and derives the sound collection angle θ1. Good. For example, the user may directly specify the sound collection angle θ1 via the touch panel 62 or the like, and the designated data may be handled as data derived by the sound collection angle calculation unit 38. Thereby, the direction of directivity can be determined without using the camera 20.

例えば、上記実施形態では、監視制御装置30,30Bが、カメラ20を用いずに、実際の空間的な監視範囲の大きさとアレイマイク10の範囲角度θ2とを対応づけ、プリセットしてもよい。つまり、監視制御装置30,30Bの図示しないメモリが、上記監視範囲の大きさと範囲角度θ2との対応情報を保持してもよい。この場合、例えば、ユーザがタッチパネル62等を介して監視範囲の大きさを指定すると、収音角度演算部38が、メモリに保持された対応情報を参照して、範囲角度θ2を導出してもよい。また、例えば、ユーザがタッチパネル62等を介して範囲角度θ2を直接指定し、指定されたデータを範囲角度演算部45により導出されたデータとして扱ってもよい。これにより、カメラ20を用いずに、指向性の範囲の大きさを決定できる。   For example, in the above-described embodiment, the monitoring control devices 30 and 30B may preset the size of the actual spatial monitoring range and the range angle θ2 of the array microphone 10 without using the camera 20. That is, the memory (not shown) of the monitoring control devices 30 and 30B may hold correspondence information between the size of the monitoring range and the range angle θ2. In this case, for example, when the user specifies the size of the monitoring range via the touch panel 62 or the like, the sound collection angle calculation unit 38 refers to the correspondence information stored in the memory and derives the range angle θ2. Good. Further, for example, the user may directly specify the range angle θ2 via the touch panel 62 or the like, and the specified data may be handled as data derived by the range angle calculation unit 45. Thereby, the size of the directivity range can be determined without using the camera 20.

例えば、上記実施形態では、監視システム100,100Bは、画像を用いずに音声を用いて監視するシステムでもよい。この場合、監視システム100,100Bでは、例えば、カメラ20又は表示に関連する機能を実現するための構成部が省略されてもよい。   For example, in the above-described embodiment, the monitoring systems 100 and 100B may be systems that monitor using sound without using an image. In this case, in the monitoring systems 100 and 100B, for example, the configuration unit for realizing the function related to the camera 20 or the display may be omitted.

例えば、上記実施形態では、収音ユニット90が屋内の天井面101に固定されることを例示したが、収音ユニット90が他の位置(例えば、屋内の壁面)に固定されてもよい。また、監視システム100,100Bにおいて、カメラ20が複数設けられてもよい。また、モニタ61、タッチパネル62、及びスピーカ63が、監視制御装置30,30Bに含まれてもよい。   For example, in the above embodiment, the sound collection unit 90 is exemplified as being fixed to the indoor ceiling surface 101. However, the sound collection unit 90 may be fixed to another position (for example, an indoor wall surface). In the monitoring systems 100 and 100B, a plurality of cameras 20 may be provided. Moreover, the monitor 61, the touch panel 62, and the speaker 63 may be included in the monitoring control devices 30 and 30B.

例えば、上記実施形態では、モニタ61にボリューム調整を行うためのソフトウェアキーボード(スクリーンキーボード)を表示してもよい。タッチパネル62によりソフトウェアキーボードを操作することで、例えば、指向性処理がされた音声データの音量を調整できる。   For example, in the above embodiment, a software keyboard (screen keyboard) for performing volume adjustment may be displayed on the monitor 61. By operating the software keyboard with the touch panel 62, for example, the volume of voice data subjected to directivity processing can be adjusted.

例えば、上記実施形態では、監視制御装置30,30Bは、図示しない制御部が、収音ユニット90が設置された環境に応じて発生する音声データの歪みを補正してもよい。また、図示しない制御部が、カメラ20(例えば魚眼レンズを有するカメラ)により撮像された画像データに発生する歪を補正してもよい。   For example, in the above embodiment, in the monitoring control devices 30 and 30B, a control unit (not shown) may correct the distortion of the audio data that occurs according to the environment in which the sound collection unit 90 is installed. Further, a control unit (not shown) may correct distortion generated in image data captured by the camera 20 (for example, a camera having a fisheye lens).

例えば、上記実施形態では、例えば、収音座標指定部35は、タッチパネル62により監視領域がタッチされ、指向性が当該監視領域に向けられた後、タッチパネル62により監視領域が再度タッチされた場合、当該監視領域を監視対象から除外してもよい。つまり、収音座標指定部35は、モニタ61により表示された画像データにおける同一の位置又は領域が複数回タッチされた場合、収音座標の導出を終了し、指向性処理部37による指向性処理を終了させてもよい。   For example, in the above-described embodiment, for example, when the monitoring area is touched by the touch panel 62 and the directivity is directed to the monitoring area, the sound collection coordinate designation unit 35 is touched again by the touch panel 62. The monitoring area may be excluded from the monitoring target. That is, when the same position or region in the image data displayed on the monitor 61 is touched a plurality of times, the sound collection coordinate designating unit 35 ends the derivation of the sound collection coordinates, and directivity processing by the directivity processing unit 37 is performed. May be terminated.

上記実施形態では、例えば、収音座標指定部35は、タッチパネル62により監視領域がタッチされた状態で、ドラッグ操作を受け付けた場合、監視領域を移動させてもよい。   In the above embodiment, for example, the sound collection coordinate designating unit 35 may move the monitoring area when a drag operation is received in a state where the monitoring area is touched by the touch panel 62.

上記実施形態では、監視システム100,100Bが、収音ユニット90を複数備えてもよい。この場合、各収音ユニット90が連携して画像データを形成し、音声データを形成してもよい。また、各収音ユニット90のカメラ20により撮像された画像が、モニタ61の分割画面に同時に表示されてもよい。監視制御装置30,30Bは、各分割画面において、タッチパネル62により複数の分割画面に跨いでドラッグ操作を受け付けた場合でも、各収音ユニット90により収音された音声データを用いて、指向性処理を行ってもよい。   In the above embodiment, the monitoring systems 100 and 100B may include a plurality of sound collection units 90. In this case, the sound collection units 90 may form image data in cooperation with each other to form sound data. In addition, images captured by the cameras 20 of the sound collection units 90 may be displayed on the divided screens of the monitor 61 at the same time. The supervisory control devices 30 and 30B use the voice data collected by each sound collecting unit 90 to perform directivity processing even when a drag operation is accepted across the plurality of divided screens by the touch panel 62 in each divided screen. May be performed.

上記実施形態では、収音座標指定部35は、複数の収音座標を同時に指定してもよい。範囲指定部44は、複数の収音範囲を同時に指定してもよい。この場合、収音角度演算部38は、複数の収音角度θ1を演算し、範囲角度演算部45は、複数の範囲角度θ2を演算し、指向性処理部37は、複数の方向及び範囲の音声成分が強調された複数の音声データを生成してもよい。   In the above embodiment, the sound collection coordinate designating unit 35 may designate a plurality of sound collection coordinates simultaneously. The range designation unit 44 may designate a plurality of sound collection ranges simultaneously. In this case, the sound collection angle calculation unit 38 calculates a plurality of sound collection angles θ1, the range angle calculation unit 45 calculates a plurality of range angles θ2, and the directivity processing unit 37 calculates a plurality of directions and ranges. A plurality of audio data in which audio components are emphasized may be generated.

(本発明の一態様の概要)
本発明の一態様の音声処理装置は、複数のマイクロホンを含む収音部により所定エリア内の音源から収音された音声データ、及び、前記所定エリア内の少なくとも一部の画像を撮像する撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定する第1の指定部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定の範囲を指定する第2の指定部と、前記指定された所定の範囲内において、前記指定された方向の前記音声データにおける音声成分を強調する指向性処理部と、を備える。
(Overview of one embodiment of the present invention)
An audio processing apparatus according to an aspect of the present invention includes an imaging unit that captures audio data collected from a sound source in a predetermined area by a sound collecting unit including a plurality of microphones, and at least a part of an image in the predetermined area. A data acquisition unit that acquires the image data captured by the image data, a first specification unit that specifies a direction relative to the sound collection unit corresponding to a specified location on the image displayed based on the image data, A second designation unit for designating a predetermined range in the predetermined area corresponding to a specified location on the image displayed based on the image data; and the specified direction in the specified predetermined range A directivity processing unit that emphasizes a voice component in the voice data.

この構成によれば、音声処理装置を扱う監視者は、監視領域の方向及び範囲の大きさが指定され、監視領域に対応する方向及び大きさの範囲に指向性が形成された状態で、異常の有無を監視できる。これにより、収音された音声データ及び画像データの活用を促進し、監視者の利便性を向上できる。   According to this configuration, the supervisor who handles the sound processing apparatus is in a state where the direction and the size of the monitoring area are designated and the directivity is formed in the direction and the size range corresponding to the monitoring area. The presence or absence can be monitored. Thereby, utilization of the collected voice data and image data can be promoted, and the convenience of the supervisor can be improved.

また、本発明の一態様の音声処理装置は、前記指向性処理部により強調された前記方向及び前記範囲の音声成分から、所定の音を検出する音検出部と、前記音検出部によって前記所定の音が検出された場合、所定の処理を行う処理部と、を備える。   The speech processing apparatus according to an aspect of the present invention includes a sound detection unit that detects a predetermined sound from the sound components in the direction and the range emphasized by the directivity processing unit, and the sound detection unit that performs the predetermined process. And a processing unit that performs a predetermined process when the sound is detected.

この構成によれば、音声処理装置が、所定の音の検出に伴って様々なアクションを実施するので、収音された音声データ及び撮像された画像データの活用を促進し、監視者の利便性を向上できる。   According to this configuration, since the sound processing device performs various actions in accordance with the detection of the predetermined sound, the utilization of the collected sound data and the captured image data is promoted, and the convenience of the supervisor Can be improved.

また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記音声データ及び前記画像データを記録する記録部から、前記所定の音を含む音声データ又は前記所定の音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録させるよう構成してもよい。   In the audio processing device according to one aspect of the present invention, the processing unit detects audio data including the predetermined sound from a recording unit that records the audio data and the image data when the predetermined sound is detected. Alternatively, a search tag for searching for image data including the sound source of the predetermined sound may be recorded in the recording unit.

この構成によれば、監視者が、将来的に音声データ又は画像データを見直す場合でも、所望の音声データ若しくは画像データ又は音声データ若しくは画像データの特定の箇所を容易に検索でき、例えば検証時間を短縮できる。   According to this configuration, even when the supervisor reviews audio data or image data in the future, it is possible to easily search for a specific portion of desired audio data or image data or audio data or image data. Can be shortened.

また、本発明の一態様の音声処理装置は、前記処理部が、前記記録部に記録された検索用タグに含まれる所定の検索用タグと対応した、前記記録部に記録された音声データ又は画像データを取得するよう構成してもよい。   Further, in the audio processing device according to one aspect of the present invention, the processing unit corresponds to a predetermined search tag included in the search tag recorded in the recording unit, or the audio data recorded in the recording unit or You may comprise so that image data may be acquired.

この構成によれば、例えば、タッチパネルを介してユーザに指定された検索用タグを用いて、同様の事象が発生した過去の音声データ又は画像データを検索できる。従って、音声データ又は画像データの活用を促進し、監視者の利便性を向上でき、監視精度も向上できる。   According to this configuration, for example, past audio data or image data in which a similar event has occurred can be searched using a search tag designated by the user via the touch panel. Therefore, utilization of audio data or image data can be promoted, convenience for the supervisor can be improved, and monitoring accuracy can be improved.

また、本発明の一態様の音声処理装置は、前記検索用タグが、前記所定の音の種別、前記収音部を基準とした前記所定の音の音源の方向、前記収音部を基準とした前記所定の音の音源を含む前記範囲の大きさ、及び前記音検出部により前記所定の音が検出された時刻、のうち、少なくとも1つの情報を含むよう構成してもよい。   Further, in the sound processing device of one embodiment of the present invention, the search tag includes the predetermined sound type, the direction of the sound source of the predetermined sound with respect to the sound collection unit, and the sound collection unit as a reference. The size of the range including the sound source of the predetermined sound and the time when the predetermined sound is detected by the sound detection unit may be included.

この構成によれば、様々な情報を音声データに対応する検索用タグとして記録し、必要時に所望の音声データを迅速に検索できる。   According to this configuration, various information can be recorded as search tags corresponding to voice data, and desired voice data can be quickly searched when necessary.

また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記所定の音が検出された旨を含む警告情報を、提示部に提示させるよう構成してもよい。   The speech processing device according to one aspect of the present invention is configured such that, when the predetermined sound is detected, the processing unit presents warning information including the fact that the predetermined sound is detected to the presentation unit. May be.

この構成によれば、例えば、異常に伴う音が発生したことを監視者へ通知し、監視を強化する等の注意を促すことができる。   According to this configuration, for example, it is possible to notify the monitor that a sound accompanying an abnormality has occurred and to call attention such as strengthening the monitoring.

また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記所定の音を含む音声データを記録部に記録させるよう構成してもよい。   In the audio processing device according to one aspect of the present invention, the processing unit may record audio data including the predetermined sound in a recording unit when the predetermined sound is detected.

この構成によれば、所定の音が検出されない時点では音声データを記録しないことで、記録部の活用効率を向上できる。また、所定の音が検出された場合に、所定の音の発生時点の音声データを確実に記録でき、例えば、将来的に検証材料として確認できる。また、同様に画像データも記録する場合には、より監視精度を向上できる。   According to this configuration, it is possible to improve the utilization efficiency of the recording unit by not recording the audio data when a predetermined sound is not detected. In addition, when a predetermined sound is detected, sound data at the time when the predetermined sound is generated can be reliably recorded, and can be confirmed as a verification material in the future, for example. Similarly, when image data is recorded, the monitoring accuracy can be further improved.

また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記指向性処理部により音声成分が強調される方向及び前記範囲の大きさの少なくとも一方を変更するよう構成してもよい。   In the speech processing device according to one aspect of the present invention, when the processing unit detects the predetermined sound, at least one of the direction in which the speech component is emphasized by the directivity processing unit and the size of the range. May be configured to be changed.

この構成によれば、例えば、所定の音の音源が移動し、その動きが予想される場合には、プリセットされた方向及び大きさの範囲を向くように、指向性の方向及び範囲の大きさを変更することで、所定の音を追尾できる可能性を向上できる。   According to this configuration, for example, when the sound source of a predetermined sound moves and the movement is expected, the directionality and the size of the range are set so as to face the preset direction and the size range. By changing, the possibility of tracking a predetermined sound can be improved.

また、本発明の一態様の音声処理装置は、前記所定の音を発する音源の位置を推定し、推定された位置の情報を提示部に提示させる推定部を備えるよう構成してもよい。   The speech processing apparatus according to one aspect of the present invention may be configured to include an estimation unit that estimates a position of a sound source that emits the predetermined sound and causes the presentation unit to present information on the estimated position.

この構成によれば、監視者は、推定された音源の位置を容易に確認できるので、監視者の負担を軽減でき、監視精度を向上できる。   According to this configuration, since the monitor can easily check the estimated position of the sound source, the burden on the monitor can be reduced and the monitoring accuracy can be improved.

また、本発明の一態様の音声処理装置は、前記所定の音を発する音源の位置を推定する推定部を備え、前記指向性処理部が、前記推定部により推定された前記音源の位置の方向から到来する音声成分を強調するよう構成してもよい。   The speech processing apparatus according to an aspect of the present invention includes an estimation unit that estimates a position of a sound source that emits the predetermined sound, and the directivity processing unit is a direction of the position of the sound source estimated by the estimation unit. It may be configured to emphasize the voice component coming from.

この構成によれば、監視者が、所定の音の音源を音声データを頼りに追尾できるので、音源の動向を容易に監視でき、監視精度を向上できる。   According to this configuration, the monitor can track the sound source of the predetermined sound with the sound data, so that the trend of the sound source can be easily monitored and the monitoring accuracy can be improved.

また、本発明の一態様の音声処理装置は、前記音検出部が、前記指向性処理部により強調された音声成分の信号レベルが第1の所定の信号レベル以上又は第2の所定の信号レベル以下である場合、前記所定の音として検出するよう構成してもよい。   In the sound processing device according to one aspect of the present invention, the sound detection unit has a signal level of a sound component emphasized by the directivity processing unit equal to or higher than a first predetermined signal level or a second predetermined signal level. In the following cases, the predetermined sound may be detected.

この構成によれば、例えば通常予想される生活音よりも大きな音を検出可能に閾値が設定されることで、異常音を検出する可能性を高くできる。   According to this configuration, for example, the threshold is set so that a louder sound than a normally expected life sound can be detected, thereby increasing the possibility of detecting an abnormal sound.

また、本発明の一態様の音声処理装置は、前記音検出部が、前記指向性処理部により強調された音声成分の少なくとも1つから、所定のキーワードを所定の音として検出するよう構成してもよい。   The sound processing device according to one aspect of the present invention is configured such that the sound detection unit detects a predetermined keyword as a predetermined sound from at least one of sound components emphasized by the directivity processing unit. Also good.

この構成によれば、例えば、指向性の方向の音声成分において秘匿性の高いキーワードを検出でき、キーワードに対して様々な処理を実施できるので、ユーザの利便性を向上できる。   According to this configuration, for example, a highly confidential keyword can be detected in the sound component in the direction of directivity, and various processes can be performed on the keyword, so that convenience for the user can be improved.

また、本発明の一態様の音声処理装置は、前記処理部が、前記検出された所定のキーワードを含む音声データにおける前記所定のキーワードの部分を加工するよう構成してもよい。   The speech processing apparatus according to an aspect of the present invention may be configured such that the processing unit processes a portion of the predetermined keyword in the speech data including the detected predetermined keyword.

この構成によれば、キーワードが秘匿情報である場合でも、秘匿情報を保護できる。また、例えば、キーワードを消去又は置換してキーワードを含む音声データを記録する場合、秘匿情報を保護しながら、音声データを保存できる。   According to this configuration, even when the keyword is confidential information, the confidential information can be protected. Further, for example, when recording voice data including a keyword by deleting or replacing the keyword, the voice data can be stored while protecting confidential information.

また、本発明の一態様の音声処理装置は、前記処理部が、前記検出された所定のキーワードを含む音声データを記録部に記録させるよう構成してもよい。   The speech processing apparatus according to an aspect of the present invention may be configured such that the processing unit records the speech data including the detected predetermined keyword in the recording unit.

この構成によれば、監視領域において発せられたキーワードをトリガとして、音声データの記録を開始できる。よって、キーワードが検出されない時点では音声データを記録しないことで、記録部の活用効率を向上できる。また、キーワードが検出された場合に、キーワードを含む音声データも記録でき、例えば、将来的に検証材料として確認できる。   According to this configuration, recording of audio data can be started using a keyword issued in the monitoring area as a trigger. Therefore, the use efficiency of the recording unit can be improved by not recording the voice data when no keyword is detected. In addition, when a keyword is detected, voice data including the keyword can be recorded, and can be confirmed as a verification material in the future, for example.

また、本発明の一態様の音声処理装置は、前記音検出部が、前記指向性処理部により強調された音声成分の少なくとも1つに含まれる所定の異常音を、前記所定の音として検出するよう構成してもよい。   In the sound processing device according to one aspect of the present invention, the sound detection unit detects a predetermined abnormal sound included in at least one of the sound components emphasized by the directivity processing unit as the predetermined sound. You may comprise.

この構成によれば、例えば、指向性の方向の音声成分において異常を示す異常音を検出でき、異常音を用いて様々な処理を実施できるので、ユーザの利便性を向上できる。   According to this configuration, for example, it is possible to detect an abnormal sound indicating an abnormality in the sound component in the direction of directivity and to perform various processes using the abnormal sound, so that convenience for the user can be improved.

また、本発明の一態様の音声処理装置は、前記画像データに対して画像認識する画像認識部を備え、前記処理部が、前記画像認識部による画像認識結果に応じて、前記所定の処理を行うよう構成してもよい。   An audio processing apparatus according to an aspect of the present invention includes an image recognition unit that recognizes an image with respect to the image data, and the processing unit performs the predetermined process according to an image recognition result by the image recognition unit. It may be configured to do.

この構成によれば、所定の音の検出とともに、画像認識結果も考慮することで、例えば、監視領域における異常検出精度を向上できる。従って、監視者は適切に対応することができ、監視精度を向上できる。   According to this configuration, the abnormality detection accuracy in the monitoring region can be improved, for example, by considering the image recognition result together with the detection of the predetermined sound. Therefore, the supervisor can appropriately respond, and the monitoring accuracy can be improved.

また、本発明の一態様の音声処理装置は、前記画像認識部が、前記画像データにおいて前記所定の音の音源の種別を認識するよう構成してもよい。   The audio processing device according to an aspect of the present invention may be configured such that the image recognition unit recognizes a type of a sound source of the predetermined sound in the image data.

この構成によれば、監視者が、音源の種別に応じて監視すべきか否かを容易に判断できるので、監視者の負担を軽減でき、監視精度を向上できる。また、音源の種別を示す検索用タグを付加する場合には、将来的に音声データを見直す場合でも、音源の種別に応じて容易に検索でき、例えば検証時間を短縮できる。   According to this configuration, since the monitor can easily determine whether or not to monitor according to the type of the sound source, the burden on the monitor can be reduced and the monitoring accuracy can be improved. In addition, when a search tag indicating the type of sound source is added, even if the audio data is reviewed in the future, the search can be easily performed according to the type of sound source, and for example, the verification time can be shortened.

また、本発明の一態様の音声処理装置は、前記画像認識部が、前記画像データにおいて前記所定の音の音源の動きの有無を認識するよう構成してもよい。   The audio processing device according to one aspect of the present invention may be configured such that the image recognition unit recognizes the presence or absence of movement of the sound source of the predetermined sound in the image data.

この構成によれば、監視者が、音源の動きに容易に注目できるので、監視者の負担を軽減でき、監視精度を向上できる。また、音源の動きの有無を示す検索用タグを付加する場合には、将来的に音声データを見直す場合でも、音源の動きの有無に応じて容易に検索でき、例えば検証時間を短縮できる。   According to this configuration, since the monitor can easily focus on the movement of the sound source, the burden on the monitor can be reduced and the monitoring accuracy can be improved. In addition, when a search tag indicating the presence or absence of a sound source movement is added, even if the audio data is reviewed in the future, the search can be easily performed according to the presence or absence of the sound source movement, and for example, the verification time can be shortened.

また、本発明の一態様の音声処理装置は、前記処理部が、前記画像認識部により前記画像データに対して画像認識された場合、前記音声データ及び前記画像データを記録する記録部から、前記所定の音を含む音声データ又は前記所定の音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録させるよう構成してもよい。   Further, in the audio processing device according to one aspect of the present invention, when the processing unit recognizes the image data by the image recognition unit, the recording unit that records the audio data and the image data A search tag for searching for audio data including a predetermined sound or image data including a sound source of the predetermined sound may be recorded in the recording unit.

この構成によれば、監視者が、将来的に画像データを見直す場合でも、所望の画像データ又は画像データの特定の箇所を容易に検索でき、例えば検証時間を短縮できる。   According to this configuration, even when the supervisor reviews the image data in the future, the desired image data or a specific portion of the image data can be easily searched, and for example, the verification time can be shortened.

また、本発明の一態様の音声処理装置は、前記処理部は、前記記録部に記録された検索用タグに含まれる所定の検索用タグを用いて、前記所定の検索用タグと対応し、前記記録部に記録された前記音声データ又は画像データを取得するよう構成してもよい。   Further, in the audio processing device of one aspect of the present invention, the processing unit corresponds to the predetermined search tag using a predetermined search tag included in the search tag recorded in the recording unit, You may comprise so that the said audio | voice data or image data recorded on the said recording part may be acquired.

この構成によれば、例えば、タッチパネルを介してユーザに指定された検索用タグを用いて、同様の事象が発生した過去の画像データを検索できる。従って、音声データに対応する画像データの活用を促進し、監視者の利便性を向上でき、監視精度も向上できる。   According to this configuration, for example, past image data in which a similar event has occurred can be searched using a search tag designated by the user via the touch panel. Therefore, utilization of image data corresponding to audio data can be promoted, convenience for the monitor can be improved, and monitoring accuracy can be improved.

また、本発明の一態様の音声処理装置は、前記検索用タグが、前記音源の種別、前記音源の動きの有無、及び前記音源を含むサムネイル画像、のうち、少なくとも1つを含むよう構成してもよい。   The speech processing apparatus according to an aspect of the present invention is configured such that the search tag includes at least one of the type of the sound source, the presence / absence of movement of the sound source, and a thumbnail image including the sound source. May be.

この構成によれば、様々な情報を画像データに対応する検索用タグとして記録し、必要時に所望の画像データを迅速に検索できる。   According to this configuration, various information can be recorded as search tags corresponding to image data, and desired image data can be quickly searched when necessary.

また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記所定の音が検出された旨を含む警告情報を、提示部に提示させるよう構成してもよい。   Further, in the sound processing device according to one aspect of the present invention, when the predetermined sound is detected, the processing unit indicates that the predetermined sound is detected according to an image recognition result by the image recognition unit. You may comprise so that the warning information to include may be shown in a presentation part.

この構成によれば、画像認識結果を利用して、例えば、異常に伴う音が発生したことを監視者へ通知し、監視を強化する等の注意を促すことができる。   According to this configuration, by using the image recognition result, for example, a monitor can be notified that sound accompanying an abnormality has occurred, and attention can be urged such as strengthening monitoring.

また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記所定の音を含む音声データを記録部に記録させるよう構成してもよい。   In the audio processing device according to one aspect of the present invention, when the predetermined sound is detected, the processing unit records audio data including the predetermined sound according to an image recognition result by the image recognition unit. You may comprise so that it may record on a part.

この構成によれば、所定の音が検出されない時点では音声データを記録しないことで、記録部の活用効率を向上できる。また、所定の音が検出された場合に、画像認識結果を利用して、所定の音の発生時点の音声データを確実に記録でき、例えば、将来的に検証材料として確認できる。また、同様に画像データも記録する場合には、より監視精度を向上できる。   According to this configuration, it is possible to improve the utilization efficiency of the recording unit by not recording the audio data when a predetermined sound is not detected. Further, when a predetermined sound is detected, the sound data at the time when the predetermined sound is generated can be reliably recorded using the image recognition result, and can be confirmed as a verification material in the future, for example. Similarly, when image data is recorded, the monitoring accuracy can be further improved.

また、本発明の一態様の音声処理装置は、前記処理部が、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記指向性処理部により音声成分が強調される方向及び前記範囲の大きさの少なくとも一方を変更するよう構成してもよい。   Further, in the sound processing device according to one aspect of the present invention, when the predetermined sound is detected, the processing unit emphasizes a sound component by the directivity processing unit according to an image recognition result by the image recognition unit. You may comprise so that at least one of the direction to be performed and the magnitude | size of the said range may be changed.

この構成によれば、例えば、所定の音の音源が移動し、その動きが予想される場合には、画像認識結果を利用して、プリセットされた方向及び大きさの範囲を向くように、指向性の方向及び範囲の大きさを変更することで、所定の音を追尾できる可能性を向上できる。   According to this configuration, for example, when the sound source of a predetermined sound moves and the movement is expected, the image recognition result is used to direct the sound so as to face the preset direction and size range. The possibility of tracking a predetermined sound can be improved by changing the direction and range size.

また、本発明の一態様の音声処理システムは、複数のマイクロホンを用いて所定エリア内の音源から音声データを収音する収音部を含む収音装置と、前記所定エリア内の少なくとも一部の画像を撮像する撮像部を含む撮像装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、前記音声処理装置は、前記収音部により収音された音声データ、及び、前記撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定する第1の指定部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定の範囲を指定する第2の指定部と、前記指定された所定の範囲内において、前記指定された方向の音声データにおける音声成分を強調する指向性処理部と、を備える。   The sound processing system of one embodiment of the present invention includes a sound collection device including a sound collection unit that collects sound data from a sound source in a predetermined area using a plurality of microphones, and at least a part of the predetermined area. An imaging device including an imaging unit that captures an image; and an audio processing device that processes audio data collected by the sound collection unit, wherein the audio processing device collects the sound collected by the sound collection unit. A data acquisition unit that acquires data and image data captured by the imaging unit, and a direction based on the sound collection unit that corresponds to a specified location on the image displayed based on the image data A first designation unit; a second designation unit for designating a predetermined range in the predetermined area corresponding to a designated location on the image displayed based on the image data; and within the designated predetermined range smell , And a highlight directional processing unit audio components in the designated direction of the voice data.

この構成によれば、監視者は、監視領域の方向及び範囲の大きさが指定され、監視領域に対応する方向及び大きさの範囲に指向性が形成された状態で、異常の有無を監視できる。これにより、収音された音声データ及び画像データの活用を促進し、監視者の利便性を向上できる。   According to this configuration, the monitor can monitor the presence / absence of an abnormality in a state in which the direction of the monitoring area and the size of the range are specified and the directivity is formed in the direction and size range corresponding to the monitoring area. . Thereby, utilization of the collected voice data and image data can be promoted, and the convenience of the supervisor can be improved.

また、本発明の一態様の音声処理システムは、前記音声処理装置が、更に、前記指向性処理部により強調された前記方向及び前記範囲の音声成分から、所定の音を検出する音検出部と、前記音検出部によって前記所定の音が検出された場合、所定の処理を行う処理部と、を備えるよう構成してもよい。   The speech processing system according to an aspect of the present invention further includes a sound detection unit that detects a predetermined sound from the speech component in the direction and the range emphasized by the directivity processing unit. A processing unit that performs a predetermined process when the predetermined sound is detected by the sound detection unit may be provided.

この構成によれば、音声処理装置が、所定の音の検出に伴って様々なアクションを実施するので、収音された音声データ及び撮像された画像データの活用を促進し、監視者の利便性を向上できる。   According to this configuration, since the sound processing device performs various actions in accordance with the detection of the predetermined sound, the utilization of the collected sound data and the captured image data is promoted, and the convenience of the supervisor Can be improved.

また、本発明の一態様の音声処理システムは、前記データ取得部が、前記収音装置から前記音声データを取得し、前記撮像装置から前記画像データを取得し、前記音声処理装置は、前記音声データ、前記画像データ、及び前記所定の音を含む音声データを検索するための検索用タグを記録する記録部を備えるよう構成してもよい。   In the audio processing system of one embodiment of the present invention, the data acquisition unit acquires the audio data from the sound collection device, acquires the image data from the imaging device, and the audio processing device You may comprise so that the recording tag which records the tag for search for searching the audio | speech data containing data, the said image data, and the said predetermined sound may be provided.

この構成によれば、例えば、リアルタイムの音声データ又は画像データから、監視領域における音声を明瞭に聴取できる。従って、リアルタイムでの監視精度を向上できる。また、例えば、リアルタイムの音声データ又は画像データを、検索用タグとともに記録することで、将来的に、所望の音声データ又は画像データを容易に検索でき、検証時間を短縮できる。   According to this configuration, for example, sound in the monitoring area can be clearly heard from real-time sound data or image data. Therefore, the monitoring accuracy in real time can be improved. Further, for example, by recording real-time audio data or image data together with a search tag, desired audio data or image data can be easily searched in the future, and verification time can be shortened.

また、本発明の一態様の音声処理システムは、データを記録する記録装置を備え、前記記録装置は、前記収音部により収音された音声データと前記撮像部により撮像された画像データとを対応づけて記録し、前記所定の音を含む音声データを検索するための検索用タグを記録する記録部を備え、前記データ取得部は、前記記録部から前記音声データ、前記画像データ、及び前記検索用タグを取得するよう構成してもよい。   The audio processing system according to one embodiment of the present invention includes a recording device that records data, and the recording device receives audio data picked up by the sound pickup unit and image data picked up by the image pickup unit. A recording unit that records the search tag for searching for audio data including the predetermined sound, the data acquisition unit including the audio data, the image data, and the data from the recording unit; You may comprise so that the tag for a search may be acquired.

この構成によれば、過去の画像の監視領域における音声を明瞭に聴取できる。従って、例えば、過去の画像を用いた監視領域での音声解析の精度を向上できる。また、記録された音声データ又は画像データに対して検索用タグを付加することで、将来的に、所望の音声データ又は画像データの検索を容易化できる。また、既に検索用タグが記録されている場合、検索用タグを用いて、所望の音声データ又は画像データを容易に検索できる。   According to this configuration, it is possible to clearly hear the sound in the past image monitoring area. Therefore, for example, it is possible to improve the accuracy of voice analysis in a monitoring area using past images. Further, by adding a search tag to the recorded audio data or image data, it is possible to facilitate the search for desired audio data or image data in the future. Further, when a search tag is already recorded, desired audio data or image data can be easily searched using the search tag.

また、本発明の一態様の音声処理方法は、音声処理装置における音声処理方法であって、複数のマイクロホンを含む収音部により所定エリア内の音源から収音された音声データ、及び、前記所定エリア内の少なくとも一部の画像を撮像する撮像部により撮像された画像データを取得するステップと、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定するステップと、前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定の範囲を指定するステップと、前記指定された所定の範囲内において、前記指定された方向の前記音声データにおける音声成分を強調するステップと、を有する。   The audio processing method according to an aspect of the present invention is an audio processing method in an audio processing device, and includes audio data collected from a sound source in a predetermined area by a sound collection unit including a plurality of microphones, and the predetermined Acquiring image data captured by an imaging unit that captures at least a part of an image in the area, and using the sound collection unit corresponding to a designated location on an image displayed based on the image data as a reference A step of designating a direction, a step of designating a predetermined range in the predetermined area corresponding to a designated location on the image displayed based on the image data, and the designation within the designated predetermined range Emphasizing audio components in the audio data in a specified direction.

この方法によれば、監視者は、監視領域の方向及び大きさの範囲が指定され、監視領域に対応する方向及び大きさの範囲に指向性が形成された状態で、異常の有無を監視できる。これにより、収音された音声データ及び画像データの活用を促進し、監視者の利便性を向上できる。   According to this method, the monitor can monitor the presence / absence of an abnormality in a state in which the direction and size range of the monitoring area are designated and directivity is formed in the direction and size range corresponding to the monitoring area. . Thereby, utilization of the collected voice data and image data can be promoted, and the convenience of the supervisor can be improved.

本発明は、音声データ及び画像データの活用を促進し、利便性を向上できる音声処理装置、音声処理システム、及び音声処理方法等に有用である。   The present invention is useful for an audio processing device, an audio processing system, an audio processing method, and the like that can promote utilization of audio data and image data and improve convenience.

10 アレイマイク
11A,11B,11C マイクロホン
12A,12B,12C 増幅器
13A,13B,13C A/D変換器
14A,14B,14C 音声エンコーダ
15 ネットワーク処理部
20 カメラ
21 レンズ
22 センサ
23 画像エンコーダ
24 ネットワーク処理部
30,30B 監視制御装置
31 ネットワーク処理部
32 画像デコーダ
33 画像出力部
34 画像認識部
35 収音座標指定部
36 音声デコーダ
37 指向性処理部
38 収音角度演算部
39 検出部
40 音源推定部
42 音声出力部
43 データ記録部
44 範囲指定部
45 範囲角度演算部
50 ネットワーク
60 操作者
61 モニタ
62 タッチパネル
63 スピーカ
70 レコーダ
71 ネットワーク処理部
72 データ記録部
80 音源
90 収音ユニット
91 ユニット筐体
100,100B 監視システム
101 天井面
102 床面
121 筐体入射面
PA 音源
P11,P12,P13 人物
A1 収音範囲
θ1 収音角度
θ2,θ2a,θ2b 範囲角度
DESCRIPTION OF SYMBOLS 10 Array microphone 11A, 11B, 11C Microphone 12A, 12B, 12C Amplifier 13A, 13B, 13C A / D converter 14A, 14B, 14C Audio encoder 15 Network processing part 20 Camera 21 Lens 22 Sensor 23 Image encoder 24 Network processing part 30 , 30B Monitoring and control device 31 Network processing unit 32 Image decoder 33 Image output unit 34 Image recognition unit 35 Sound collection coordinate designation unit 36 Audio decoder 37 Directivity processing unit 38 Sound collection angle calculation unit 39 Detection unit 40 Sound source estimation unit 42 Audio output Unit 43 data recording unit 44 range designation unit 45 range angle calculation unit 50 network 60 operator 61 monitor 62 touch panel 63 speaker 70 recorder 71 network processing unit 72 data recording unit 80 sound source 90 sound collecting unit DOO 91 unit housing 100,100B monitoring system 101 ceiling surface 102 floor surface 121 housing entrance plane PA source P11, P12, P13 person A1 sound collection range θ1 sound collection angle .theta.2,? 2a, .theta.2b range angle

本発明の一形態における音声処理方法は、複数のマイクロホンを含む収音部により所定エリア内の音源から収音された音声データ、及び、前記所定エリア内の少なくとも一部の画像を撮像する撮像部により撮像された画像データを取得するデータ取得ステップと、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした前記収音部の指向性の方向を指定する第1の指定ステップと、前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における前記収音部の指向性の範囲の大きさを指定する第2の指定ステップと、前記指定された前記収音部の指向性の範囲内において、前記指定された方向の前記音声データにおける音声成分を強調するように、前記指定された方向に、前記指定された大きさの範囲の前記収音部の指向性を形成する指向性処理ステップと、を備える。 An audio processing method according to an aspect of the present invention includes an image pickup unit that picks up sound data collected from a sound source in a predetermined area by a sound pickup unit including a plurality of microphones and at least a part of an image in the predetermined area. A data acquisition step of acquiring image data picked up by, and designating a direction of directivity of the sound collection unit relative to the sound collection unit corresponding to a designated location on the image displayed based on the image data second designating step of designating a first designating step, corresponding to the specified position on an image displayed based on the image data, the size of the range of directivity of the sound collection portion in the predetermined area to If, within the scope of the directivity of the designated said sound pickup section, for emphasizing the speech components in said audio data of the designated direction, the designated direction, the Comprising a directional processing step of forming a directivity of the sound collecting portion of the constant magnitude of the range, the.

本発明の一形態における音声処理システムは、複数のマイクロホンを用いて所定エリア内の音源から音声データを収音する収音部を含む収音装置と、前記所定エリア内の少なくとも一部の画像を撮像する撮像部を含む撮像装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、前記音声処理装置は、前記収音部により収音された音声データ、及び、前記撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした前記収音部の指向性の方向を指定する第1の指定部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における前記収音部の指向性の範囲の大きさを指定する第2の指定部と、前記指定された前記収音部の指向性の範囲内において、前記指定された方向の音声データにおける音声成分を強調するように、前記指定された方向に、前記指定された大きさの範囲の前記収音部の指向性を形成する指向性処理部と、を備える。 An audio processing system according to an aspect of the present invention includes a sound collection device including a sound collection unit that collects audio data from a sound source in a predetermined area using a plurality of microphones, and at least a part of the image in the predetermined area. An imaging device including an imaging unit that captures an image; and an audio processing device that processes audio data collected by the sound collection unit, wherein the audio processing device collects audio data collected by the sound collection unit, And a data acquisition unit that acquires the image data captured by the imaging unit, and a directivity of the sound collection unit with respect to the sound collection unit corresponding to a specified location on the image displayed based on the image data A first designating unit for designating the direction of the sound and a size of the directivity range of the sound collecting unit in the predetermined area corresponding to a designated location on the image displayed based on the image data Second And tough, in the range of directivity of the designated said sound pickup section, for emphasizing the speech components in the designated direction of the audio data, the in the specified direction, wherein the designated size A directivity processing unit that forms directivity of the sound collecting unit in a range of

本発明の一形態における音声処理方法は、複数のマイクロホンを含む収音部により所定エリア内の音源から収音された音声データ、及び、前記所定エリア内の少なくとも一部の画像を撮像する撮像部により撮像された画像データを取得するデータ取得ステップと、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした前記収音部の指向性の方向を指定する第1の指定ステップと、前記指定された方向の前記音声データにおける音声成分を強調するように、前記指定された方向に前記収音部の指向性を形成する指向性処理ステップと、前記指向性処理ステップにより強調された前記方向の音声成分から、監視対象音を検出する音検出ステップと、前記音検出ステップによって前記監視対象音が検出された場合、前記音声データ及び前記画像データを記録する記録部から、前記監視対象音を含む音声データ又は前記監視対象音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録する処理ステップと、を備え、前記検索用タグは、前記監視対象音の種別、前記収音部を基準とした前記監視対象音の音源の方向、及び前記音検出ステップにより前記監視対象音が検出された時刻、のうち、少なくとも1つの情報を含むAn audio processing method according to an aspect of the present invention includes an image pickup unit that picks up sound data collected from a sound source in a predetermined area by a sound pickup unit including a plurality of microphones and at least a part of an image in the predetermined area. A data acquisition step of acquiring image data picked up by, and designating a direction of directivity of the sound collection unit relative to the sound collection unit corresponding to a designated location on the image displayed based on the image data a first designation step of, so as to emphasize the speech component before Symbol the audio data of the specified direction, the directional processing step of forming a directivity before KiOsamu clef in the designated direction, A sound detection step for detecting a monitoring target sound from the sound component in the direction emphasized by the directivity processing step, and a case where the monitoring target sound is detected by the sound detection step. A search tag for searching for audio data including the monitoring target sound or image data including a sound source of the monitoring target sound is recorded in the recording unit from the recording unit for recording the audio data and the image data. A processing step , wherein the search tag detects the monitoring target sound by the type of the monitoring target sound, the direction of the sound source of the monitoring target sound with reference to the sound collection unit, and the sound detection step. At least one piece of information .

本発明の一形態における音声処理システムは、複数のマイクロホンを用いて所定エリア内の音源から音声データを収音する収音部を含む収音装置と、前記所定エリア内の少なくとも一部の画像を撮像する撮像部を含む撮像装置と、前記収音部により収音された音声データを処理する音声処理装置と、を備え、前記音声処理装置は、前記収音部により収音された音声データ、及び、前記撮像部により撮像された画像データを取得するデータ取得部と、前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした前記収音部の指向性の方向を指定する第1の指定部と、前記指定された方向の音声データにおける音声成分を強調するように、前記指定された方向に前記収音部の指向性を形成する指向性処理部と、前記指向性処理部により強調された前記方向の音声成分から、監視対象音を検出する音検出部と、前記音検出部によって前記監視対象音が検出された場合、前記音声データ及び前記画像データを記録する記録部から、前記監視対象音を含む音声データ又は前記監視対象音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録する処理部と、を備え、前記検索用タグは、前記監視対象音の種別、前記収音部を基準とした前記監視対象音の音源の方向、及び前記音検出ステップにより前記監視対象音が検出された時刻、のうち、少なくとも1つの情報を含む、を備える。 An audio processing system according to an aspect of the present invention includes a sound collection device including a sound collection unit that collects audio data from a sound source in a predetermined area using a plurality of microphones, and at least a part of the image in the predetermined area. An imaging device including an imaging unit that captures an image; and an audio processing device that processes audio data collected by the sound collection unit, wherein the audio processing device collects audio data collected by the sound collection unit, And a data acquisition unit that acquires the image data captured by the imaging unit, and a directivity of the sound collection unit with respect to the sound collection unit corresponding to a specified location on the image displayed based on the image data first designation portion, so as to emphasize the voice component in the prior SL designated direction of the audio data, directional to form the directivity of the prior KiOsamu clef in the designated direction to specify the direction of sex a processing unit, wherein A sound detection unit that detects a monitoring target sound from the sound component in the direction emphasized by the directional processing unit, and the sound data and the image data are recorded when the sound detection unit detects the monitoring target sound A processing unit that records in the recording unit a search tag for searching for audio data including the monitoring target sound or image data including a sound source of the monitoring target sound from the recording unit . The tag includes at least one piece of information among a type of the monitoring target sound, a direction of a sound source of the monitoring target sound with reference to the sound collection unit, and a time when the monitoring target sound is detected by the sound detection step. Including .

Claims (29)

複数のマイクロホンを含む収音部により所定エリア内の音源から収音された音声データ、及び、前記所定エリア内の少なくとも一部の画像を撮像する撮像部により撮像された画像データを取得するデータ取得部と、
前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定する第1の指定部と、
前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定の範囲を指定する第2の指定部と、
前記指定された所定の範囲内において、前記指定された方向の前記音声データにおける音声成分を強調する指向性処理部と、
を備える音声処理装置。
Data acquisition for acquiring sound data picked up from a sound source in a predetermined area by a sound pickup unit including a plurality of microphones and image data picked up by an image pickup unit that picks up at least a part of the image in the predetermined area And
A first designation unit for designating a direction with reference to the sound collection unit corresponding to a designated location on an image displayed based on the image data;
A second designation unit for designating a predetermined range in the predetermined area corresponding to a designated location on the image displayed based on the image data;
A directivity processing unit that emphasizes a voice component in the voice data in the designated direction within the designated predetermined range;
A speech processing apparatus comprising:
請求項1に記載の音声処理装置であって、更に、
前記指向性処理部により強調された前記方向及び前記範囲の音声成分から、所定の音を検出する音検出部と、
前記音検出部によって前記所定の音が検出された場合、所定の処理を行う処理部と、
を備える音声処理装置。
The speech processing apparatus according to claim 1, further comprising:
A sound detection unit for detecting a predetermined sound from the voice component in the direction and the range emphasized by the directivity processing unit;
A processing unit that performs a predetermined process when the predetermined sound is detected by the sound detection unit;
A speech processing apparatus comprising:
請求項2に記載の音声処理装置であって、
前記処理部は、前記所定の音が検出された場合、前記音声データ及び前記画像データを記録する記録部から、前記所定の音を含む音声データ又は前記所定の音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録させる音声処理装置。
The speech processing apparatus according to claim 2,
When the predetermined sound is detected, the processing unit searches the sound data including the predetermined sound or the image data including the sound source of the predetermined sound from the recording unit that records the audio data and the image data. An audio processing apparatus that causes a recording tag to be recorded in the recording unit.
請求項3に記載の音声処理装置であって、
前記処理部は、前記記録部に記録された検索用タグに含まれる所定の検索用タグと対応した、前記記録部に記録された音声データ又は画像データを取得する音声処理装置。
The voice processing device according to claim 3,
The audio processing apparatus, wherein the processing unit acquires audio data or image data recorded in the recording unit corresponding to a predetermined search tag included in the search tag recorded in the recording unit.
請求項3または4に記載の音声処理装置であって、
前記検索用タグは、前記所定の音の種別、前記収音部を基準とした前記所定の音の音源の方向、前記収音部を基準とした前記所定の音の音源を含む前記範囲の大きさ、及び前記音検出部により前記所定の音が検出された時刻、のうち、少なくとも1つの情報を含む、音声処理装置。
The voice processing device according to claim 3 or 4,
The search tag includes the type of the predetermined sound, the direction of the sound source of the predetermined sound with reference to the sound collection unit, and the size of the range including the sound source of the predetermined sound with reference to the sound collection unit. An audio processing device including at least one piece of information among the time when the predetermined sound is detected by the sound detection unit.
請求項2から5のいずれか1項に記載の音声処理装置であって、
前記処理部は、前記所定の音が検出された場合、前記所定の音が検出された旨を含む警告情報を、提示部に提示させる音声処理装置。
The speech processing apparatus according to any one of claims 2 to 5,
When the predetermined sound is detected, the processing unit is a voice processing device that causes a presentation unit to present warning information including the fact that the predetermined sound has been detected.
請求項2から6のいずれか1項に記載の音声処理装置であって、
前記処理部は、前記所定の音が検出された場合、前記所定の音を含む音声データを記録部に記録させる音声処理装置。
The speech processing apparatus according to any one of claims 2 to 6,
When the predetermined sound is detected, the processing unit is an audio processing device that causes the recording unit to record audio data including the predetermined sound.
請求項2から7のいずれか1項に記載の音声処理装置であって、
前記処理部は、前記所定の音が検出された場合、前記指向性処理部により音声成分が強調される方向及び前記範囲の大きさの少なくとも一方を変更する音声処理装置。
The speech processing apparatus according to any one of claims 2 to 7,
When the predetermined sound is detected, the processing unit changes at least one of a direction in which a sound component is emphasized by the directivity processing unit and a size of the range.
請求項2から8のいずれか1項に記載の音声処理装置であって、更に、
前記所定の音を発する音源の位置を推定し、推定された位置の情報を提示部に提示させる推定部と、
を備える音声処理装置。
The speech processing apparatus according to any one of claims 2 to 8, further comprising:
An estimation unit that estimates a position of a sound source that emits the predetermined sound and causes the presentation unit to present information on the estimated position;
A speech processing apparatus comprising:
請求項2から9のいずれか1項に記載の音声処理装置であって、更に、
前記所定の音を発する音源の位置を推定する推定部を備え、
前記指向性処理部は、前記推定部により推定された前記音源の位置の方向から到来する音声成分を強調する音声処理装置。
The speech processing apparatus according to any one of claims 2 to 9, further comprising:
An estimation unit that estimates a position of a sound source that emits the predetermined sound;
The directivity processing unit is an audio processing device that emphasizes an audio component coming from a direction of a position of the sound source estimated by the estimation unit.
請求項2から10のいずれか1項に記載の音声処理装置であって、
前記音検出部は、前記指向性処理部により強調された音声成分の信号レベルが第1の所定の信号レベル以上又は第2の所定の信号レベル以下である場合、前記所定の音として検出する音声処理装置。
The speech processing apparatus according to any one of claims 2 to 10,
The sound detection unit detects sound as the predetermined sound when the signal level of the audio component emphasized by the directivity processing unit is equal to or higher than a first predetermined signal level or equal to or lower than a second predetermined signal level. Processing equipment.
請求項2から11のいずれか1項に記載の音声処理装置であって、
前記音検出部は、前記指向性処理部により強調された音声成分の少なくとも1つから、所定のキーワードを前記所定の音として検出する音声処理装置。
The speech processing apparatus according to any one of claims 2 to 11,
The sound processing unit is a sound processing device that detects a predetermined keyword as the predetermined sound from at least one of the sound components emphasized by the directivity processing unit.
請求項12に記載の音声処理装置であって、
前記処理部は、前記検出された所定のキーワードを含む音声データにおける前記所定のキーワードの部分を加工する音声処理装置。
The voice processing device according to claim 12,
The processing unit is an audio processing device that processes a portion of the predetermined keyword in audio data including the detected predetermined keyword.
請求項12に記載の音声処理装置であって、
前記処理部は、前記検出された所定のキーワードを含む音声データを記録部に記録させる音声処理装置。
The voice processing device according to claim 12,
The processing unit is a voice processing apparatus that causes a recording unit to record voice data including the detected predetermined keyword.
請求項2から10のいずれか1項に記載の音声処理装置であって、
前記音検出部は、前記指向性処理部により強調された音声成分の少なくとも1つに含まれる所定の異常音を、前記所定の音として検出する音声処理装置。
The speech processing apparatus according to any one of claims 2 to 10,
The sound processing unit detects a predetermined abnormal sound included in at least one of the sound components emphasized by the directivity processing unit as the predetermined sound.
請求項2から5のいずれか1項に記載の音声処理装置であって、
前記画像データに対して画像認識する画像認識部を備え、
前記処理部は、前記画像認識部による画像認識結果に応じて、前記所定の処理を行う音声処理装置。
The speech processing apparatus according to any one of claims 2 to 5,
An image recognition unit for recognizing the image data;
The processing unit is an audio processing device that performs the predetermined processing in accordance with an image recognition result by the image recognition unit.
請求項16に記載の音声処理装置であって、
前記画像認識部は、前記画像データにおいて前記所定の音の音源の種別を認識する音声処理装置。
The speech processing apparatus according to claim 16, comprising:
The image recognition unit is a sound processing device that recognizes a type of a sound source of the predetermined sound in the image data.
請求項16または17に記載の音声処理装置であって、
前記画像認識部は、前記画像データにおいて前記所定の音の音源の動きの有無を認識する音声処理装置。
The speech processing apparatus according to claim 16 or 17,
The image processing unit is an audio processing device that recognizes the presence or absence of movement of the sound source of the predetermined sound in the image data.
請求項16から18のいずれか1項に記載の音声処理装置であって、
前記処理部は、前記画像認識部により前記画像データに対して画像認識された場合、前記音声データ及び前記画像データを記録する記録部から、前記所定の音を含む音声データ又は前記所定の音の音源を含む画像データを検索するための検索用タグを、前記記録部に記録させる音声処理装置。
The speech processing apparatus according to any one of claims 16 to 18, comprising:
When the image recognition unit recognizes the image data, the processing unit receives the audio data including the predetermined sound or the predetermined sound from the audio data and the recording unit that records the image data. An audio processing apparatus for causing a recording tag to be recorded in a recording tag for searching for image data including a sound source.
請求項19に記載の音声処理装置であって、
前記処理部は、前記記録部に記録された検索用タグに含まれる所定の検索用タグを用いて、前記所定の検索用タグと対応し、前記記録部に記録された音声データ又は画像データを取得する音声処理装置。
The speech processing apparatus according to claim 19, wherein
The processing unit uses the predetermined search tag included in the search tag recorded in the recording unit, and corresponds to the predetermined search tag, and stores the audio data or image data recorded in the recording unit. Audio processing device to acquire.
請求項19または20に記載の音声処理装置であって、
前記検索用タグは、前記音源の種別、前記音源の動きの有無、及び前記音源を含むサムネイル画像、のうち、少なくとも1つを含む、音声処理装置。
The speech processing apparatus according to claim 19 or 20,
The search processing tag includes at least one of a type of the sound source, presence / absence of movement of the sound source, and a thumbnail image including the sound source.
請求項16から21のいずれか1項に記載の音声処理装置であって、
前記処理部は、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記所定の音が検出された旨を含む警告情報を、提示部に提示させる音声処理装置。
The speech processing apparatus according to any one of claims 16 to 21,
When the predetermined sound is detected, the processing unit causes the presentation unit to present warning information including the fact that the predetermined sound has been detected according to an image recognition result by the image recognition unit. .
請求項16から22のいずれか1項に記載の音声処理装置であって、
前記処理部は、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記所定の音を含む音声データを記録部に記録させる音声処理装置。
The speech processing apparatus according to any one of claims 16 to 22,
When the predetermined sound is detected, the processing unit causes the recording unit to record audio data including the predetermined sound in accordance with an image recognition result by the image recognition unit.
請求項16から23のいずれか1項に記載の音声処理装置であって、
前記処理部は、前記所定の音が検出された場合、前記画像認識部による画像認識結果に応じて、前記指向性処理部により音声成分が強調される方向及び範囲の少なくとも一方を変更する音声処理装置。
The speech processing apparatus according to any one of claims 16 to 23, wherein:
When the predetermined sound is detected, the processing unit changes the direction and / or the range in which the sound component is emphasized by the directivity processing unit according to the image recognition result by the image recognition unit. apparatus.
複数のマイクロホンを用いて所定エリア内の音源から音声データを収音する収音部を含む収音装置と、
前記所定エリア内の少なくとも一部の画像を撮像する撮像部を含む撮像装置と、
前記収音部により収音された音声データを処理する音声処理装置と、
を備え、
前記音声処理装置は、
前記収音部により収音された音声データ、及び、前記撮像部により撮像された画像データを取得するデータ取得部と、
前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定する第1の指定部と、
前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定の範囲を指定する第2の指定部と、
前記指定された所定の範囲内において、前記指定された方向の音声データにおける音声成分を強調する指向性処理部と、
を備える音声処理システム。
A sound collection device including a sound collection unit for collecting sound data from a sound source in a predetermined area using a plurality of microphones;
An imaging device including an imaging unit that captures at least a part of the image in the predetermined area;
An audio processing device for processing audio data collected by the sound collection unit;
With
The voice processing device
A data acquisition unit that acquires audio data collected by the sound collection unit, and image data captured by the imaging unit;
A first designation unit for designating a direction with reference to the sound collection unit corresponding to a designated location on an image displayed based on the image data;
A second designation unit for designating a predetermined range in the predetermined area corresponding to a designated location on the image displayed based on the image data;
A directivity processing unit that emphasizes a voice component in the voice data in the designated direction within the designated predetermined range;
A speech processing system comprising:
請求項25に記載の音声処理システムであって、
前記音声処理装置は、更に、
前記指向性処理部により強調された前記方向及び前記範囲の音声成分から、所定の音を検出する音検出部と、
前記音検出部によって前記所定の音が検出された場合、所定の処理を行う処理部と、
を備える音声処理システム。
The speech processing system according to claim 25, wherein
The voice processing device further includes:
A sound detection unit for detecting a predetermined sound from the voice component in the direction and the range emphasized by the directivity processing unit;
A processing unit that performs a predetermined process when the predetermined sound is detected by the sound detection unit;
A speech processing system comprising:
請求項26に記載の音声処理システムであって、
前記データ取得部は、前記収音装置から前記音声データを取得し、前記撮像装置から前記画像データを取得し、
前記音声処理装置は、
前記音声データ、前記画像データ、及び前記所定の音を含む音声データを検索するための検索用タグを記録する記録部を備える音声処理システム。
27. The speech processing system of claim 26, wherein
The data acquisition unit acquires the audio data from the sound collection device, acquires the image data from the imaging device,
The voice processing device
An audio processing system comprising a recording unit for recording a search tag for searching for audio data including the audio data, the image data, and the predetermined sound.
請求項26に記載の音声処理システムであって、更に、
データを記録する記録装置を備え、
前記記録装置は、前記収音部により収音された音声データと前記撮像部により撮像された画像データとを対応づけて記録し、前記所定の音を含む音声データを検索するための検索用タグを記録する記録部を備え、
前記データ取得部は、前記記録部から前記音声データ、前記画像データ、及び前記検索用タグを取得する、音声処理システム。
The speech processing system of claim 26, further comprising:
A recording device for recording data;
The recording device records the audio data collected by the sound collection unit and the image data captured by the imaging unit in association with each other, and a search tag for searching for audio data including the predetermined sound A recording unit for recording
The data acquisition unit is an audio processing system that acquires the audio data, the image data, and the search tag from the recording unit.
音声処理装置における音声処理方法であって、
複数のマイクロホンを含む収音部により所定エリア内の音源から収音された音声データ、及び、前記所定エリア内の少なくとも一部の画像を撮像する撮像部により撮像された画像データを取得するステップと、
前記画像データに基づき表示される画像上の指定箇所に対応する、前記収音部を基準とした方向を指定するステップと、
前記画像データに基づき表示される画像上の指定箇所に対応する、前記所定エリア内における所定の範囲を指定するステップと、
前記指定された所定の範囲内において、前記指定された方向の前記音声データにおける音声成分を強調するステップと、
を有する音声処理方法。
An audio processing method in an audio processing device,
Obtaining sound data collected from a sound source in a predetermined area by a sound collecting unit including a plurality of microphones, and image data captured by an imaging unit that captures at least a part of the image in the predetermined area; ,
Designating a direction relative to the sound collection unit corresponding to a designated location on the image displayed based on the image data;
Designating a predetermined range in the predetermined area corresponding to a designated location on an image displayed based on the image data;
Enhancing the audio component in the audio data in the specified direction within the specified predetermined range;
A voice processing method comprising:
JP2015526814A 2014-04-25 2014-04-25 Audio processing method, audio processing system, and storage medium Expired - Fee Related JP6135880B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/002334 WO2015162645A1 (en) 2014-04-25 2014-04-25 Audio processing apparatus, audio processing system, and audio processing method

Publications (2)

Publication Number Publication Date
JPWO2015162645A1 true JPWO2015162645A1 (en) 2017-04-13
JP6135880B2 JP6135880B2 (en) 2017-05-31

Family

ID=54331844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015526814A Expired - Fee Related JP6135880B2 (en) 2014-04-25 2014-04-25 Audio processing method, audio processing system, and storage medium

Country Status (3)

Country Link
JP (1) JP6135880B2 (en)
CN (1) CN105474666B (en)
WO (1) WO2015162645A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020003724A (en) * 2018-06-29 2020-01-09 キヤノン株式会社 Sound collection device, sound collection device control method

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
JP5979458B1 (en) 2015-11-06 2016-08-24 パナソニックIpマネジメント株式会社 Unmanned air vehicle detection system and unmanned air vehicle detection method
JP2018101987A (en) * 2018-01-31 2018-06-28 パナソニックIpマネジメント株式会社 Sound source display system in monitoring area and sound source display method
CN110248197B (en) * 2018-03-07 2021-10-22 杭州海康威视数字技术股份有限公司 Voice enhancement method and device
CN108537150B (en) * 2018-03-27 2019-01-18 长沙英迈智越信息技术有限公司 Reflective processing system based on image recognition
US10462422B1 (en) * 2018-04-09 2019-10-29 Facebook, Inc. Audio selection based on user engagement
CN108806353A (en) * 2018-08-17 2018-11-13 中国图书进出口(集团)大连有限公司 Spatialization sound reading system and method
CN110890100B (en) * 2018-09-10 2022-11-18 杭州海康威视数字技术股份有限公司 Voice enhancement method, multimedia data acquisition method, multimedia data playing method, device and monitoring system
CN111050269B (en) * 2018-10-15 2021-11-19 华为技术有限公司 Audio processing method and electronic equipment
CN109317355B (en) * 2018-10-30 2021-01-15 怡定兴科技股份有限公司 Curtain coating device and curtain coating system
CN111522931A (en) * 2020-04-22 2020-08-11 深圳创维-Rgb电子有限公司 Virtual character-based decompression data processing method, display device and storage medium
CN113994426B (en) * 2020-05-28 2023-08-01 深圳市大疆创新科技有限公司 Audio processing method, electronic device and computer readable storage medium
CN113014983B (en) * 2021-03-08 2022-12-27 Oppo广东移动通信有限公司 Video playing method and device, storage medium and electronic equipment
CN117528335A (en) * 2023-12-05 2024-02-06 广东鼎诺科技音频有限公司 Audio equipment applying directional microphone and noise reduction method

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174147A (en) * 1991-12-24 1993-07-13 Nippon Telegr & Teleph Corp <Ntt> Moving image recognition processing system
JP2000209689A (en) * 1999-01-12 2000-07-28 Canon Inc Sound processor, its control method and recording medium
JP2003348569A (en) * 2002-05-28 2003-12-05 Toshiba Lighting & Technology Corp Monitoring camera system
JP2004109361A (en) * 2002-09-17 2004-04-08 Toshiba Corp Device, method, and program for setting directivity
JP2004153764A (en) * 2002-11-01 2004-05-27 Matsushita Electric Ind Co Ltd Meta-data production apparatus and search apparatus
JP2006238110A (en) * 2005-02-25 2006-09-07 Matsushita Electric Ind Co Ltd Monitoring system
JP2006339741A (en) * 2005-05-31 2006-12-14 Matsushita Electric Ind Co Ltd Monitoring device and monitoring method
JP2007228459A (en) * 2006-02-27 2007-09-06 Ikegami Tsushinki Co Ltd Monitoring system
JP2007300220A (en) * 2006-04-27 2007-11-15 Olympus Imaging Corp Camera, playback unit, audio recording method, audio playback method, program, and recording medium
JP2008219227A (en) * 2007-03-01 2008-09-18 Oki Electric Ind Co Ltd System and method for monitoring video image
JP2008271157A (en) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd Sound enhancement device and control program
JP2013240000A (en) * 2012-05-17 2013-11-28 Kyocera Corp Electronic apparatus, recording control program, and recording control method
US20130342730A1 (en) * 2012-06-25 2013-12-26 Lg Electronics Inc. Mobile terminal and audio zooming method thereof
US20140085538A1 (en) * 2012-09-25 2014-03-27 Greg D. Kaine Techniques and apparatus for audio isolation in video processing

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004153754A (en) * 2002-11-01 2004-05-27 Sharp Corp Telephone equipment and e-mail receiving method of the same telephone equipment

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174147A (en) * 1991-12-24 1993-07-13 Nippon Telegr & Teleph Corp <Ntt> Moving image recognition processing system
JP2000209689A (en) * 1999-01-12 2000-07-28 Canon Inc Sound processor, its control method and recording medium
JP2003348569A (en) * 2002-05-28 2003-12-05 Toshiba Lighting & Technology Corp Monitoring camera system
JP2004109361A (en) * 2002-09-17 2004-04-08 Toshiba Corp Device, method, and program for setting directivity
JP2004153764A (en) * 2002-11-01 2004-05-27 Matsushita Electric Ind Co Ltd Meta-data production apparatus and search apparatus
JP2006238110A (en) * 2005-02-25 2006-09-07 Matsushita Electric Ind Co Ltd Monitoring system
JP2006339741A (en) * 2005-05-31 2006-12-14 Matsushita Electric Ind Co Ltd Monitoring device and monitoring method
JP2007228459A (en) * 2006-02-27 2007-09-06 Ikegami Tsushinki Co Ltd Monitoring system
JP2007300220A (en) * 2006-04-27 2007-11-15 Olympus Imaging Corp Camera, playback unit, audio recording method, audio playback method, program, and recording medium
JP2008219227A (en) * 2007-03-01 2008-09-18 Oki Electric Ind Co Ltd System and method for monitoring video image
JP2008271157A (en) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd Sound enhancement device and control program
JP2013240000A (en) * 2012-05-17 2013-11-28 Kyocera Corp Electronic apparatus, recording control program, and recording control method
US20130342730A1 (en) * 2012-06-25 2013-12-26 Lg Electronics Inc. Mobile terminal and audio zooming method thereof
US20140085538A1 (en) * 2012-09-25 2014-03-27 Greg D. Kaine Techniques and apparatus for audio isolation in video processing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020003724A (en) * 2018-06-29 2020-01-09 キヤノン株式会社 Sound collection device, sound collection device control method

Also Published As

Publication number Publication date
CN105474666B (en) 2018-11-16
WO2015162645A1 (en) 2015-10-29
JP6135880B2 (en) 2017-05-31
CN105474666A (en) 2016-04-06

Similar Documents

Publication Publication Date Title
JP6135880B2 (en) Audio processing method, audio processing system, and storage medium
US10182280B2 (en) Sound processing apparatus, sound processing system and sound processing method
US20150281832A1 (en) Sound processing apparatus, sound processing system and sound processing method
US11941968B2 (en) Systems and methods for identifying an acoustic source based on observed sound
JP6887102B2 (en) Audio processing equipment, image processing equipment, microphone array system, and audio processing method
US20160037277A1 (en) Failure detection system and failure detection method
US10497356B2 (en) Directionality control system and sound output control method
WO2018025492A1 (en) Customer attendance monitoring device, customer attendance monitoring system, and customer attendance monitoring method
CN110808048A (en) Voice processing method, device, system and storage medium
MX2009001254A (en) Video surveillance system and method with combined video and audio recognition.
WO2015151130A1 (en) Sound processing apparatus, sound processing system, and sound processing method
JP2010183417A (en) Voice information display system, voice information display method, and voice information display device
JP6504539B2 (en) Sound pickup system and sound pickup setting method
JP6425019B2 (en) Abnormal sound detection system and abnormal sound detection method
JP2017126888A (en) Directivity control system and sound output control method
WO2018154902A1 (en) Information processing device, information processing method, and program
EP2927885A1 (en) Sound processing apparatus, sound processing system and sound processing method
EP2938097B1 (en) Sound processing apparatus, sound processing system and sound processing method
JP4175180B2 (en) Monitoring and reporting system
JP4990552B2 (en) Attention position identification system, attention position identification method, and attention position identification program
JP6569853B2 (en) Directivity control system and audio output control method
JP2017215735A (en) Transfer fraud prevention system and transfer fraud prevention method
KR20170022272A (en) Recording systems AND METHOD FOR THE SAME
US20220208165A1 (en) Open active noise cancellation system
JP2023056732A (en) Control device, control method for control device, and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170411

R151 Written notification of patent or utility model registration

Ref document number: 6135880

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

SZ03 Written request for cancellation of trust registration

Free format text: JAPANESE INTERMEDIATE CODE: R313Z03

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees