WO2014103331A1 - 音声処理システム及び音声処理方法 - Google Patents

音声処理システム及び音声処理方法 Download PDF

Info

Publication number
WO2014103331A1
WO2014103331A1 PCT/JP2013/007681 JP2013007681W WO2014103331A1 WO 2014103331 A1 WO2014103331 A1 WO 2014103331A1 JP 2013007681 W JP2013007681 W JP 2013007681W WO 2014103331 A1 WO2014103331 A1 WO 2014103331A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
voice
designated
audio
processing system
Prior art date
Application number
PCT/JP2013/007681
Other languages
English (en)
French (fr)
Inventor
裕隆 澤
信一 重永
徳田 肇道
信太郎 吉國
渡辺 周一
牧 直史
田坂 浩一
小野 進
藤本 圭祐
正治郎 松尾
鉄平 福田
宏之 松本
昭年 泉
寿嗣 ▲辻▼
林 和典
良一 湯下
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201380068876.3A priority Critical patent/CN104904236B/zh
Priority to US14/654,944 priority patent/US9826211B2/en
Priority to EP13868107.7A priority patent/EP2941013B1/en
Publication of WO2014103331A1 publication Critical patent/WO2014103331A1/ja
Priority to US15/782,953 priority patent/US10244219B2/en
Priority to US15/782,939 priority patent/US10536681B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/802Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B31/00Arrangements for the associated working of recording or reproducing apparatus with related apparatus
    • G11B31/006Arrangements for the associated working of recording or reproducing apparatus with related apparatus with video camera or receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/50Constructional details
    • H04N23/51Housings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/04Structural association of microphone with electric circuitry therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • H04R1/083Special constructions of mouthpieces
    • H04R1/086Protective screens, e.g. all weather or wind screens
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/021Transducers or their casings adapted for mounting in or to a wall or ceiling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/008Visual indication of individual signal levels

Definitions

  • the present invention relates to an audio processing system and an audio processing method for reproducing recorded video data and audio data.
  • a network is used to connect a plurality of surveillance cameras (for example, pan and tilt cameras, omnidirectional cameras)
  • a plurality of surveillance cameras for example, pan and tilt cameras, omnidirectional cameras
  • the image pickup unit for obtaining a captured image and a plurality of microphones (sound collection units) for collecting sound data are used, and sound data collected by each microphone is used
  • a sound processing apparatus is known which generates audio data having directivity in a predetermined sound collecting direction designated by a sound reproducing apparatus as a client (see, for example, Patent Document 1).
  • the sound processing device is configured to receive audio data collected by a plurality of sound collection units (microphones) in a predetermined sound collection direction received in advance from a client (sound reproduction device) connected via a network. Based on the control command, the voice data having directivity in the same direction is generated, and the synthesized voice data is transmitted to the client (sound reproduction device).
  • the sound processing device shown in Patent Document 1 When the sound processing device shown in Patent Document 1 is applied to a human surveillance system, the sound processing device designates the sound collection direction when some sort of accident occurs during recording of a photographed image around the monitored object. It is possible to immediately receive from a client (sound reproduction device) and generate audio data having directivity in the same sound collecting direction.
  • Patent Document 1 when the sound processing apparatus shown in Patent Document 1 is applied to, for example, an unmanned surveillance system, after occurrence of an accident, information about the accident by reproducing video data and audio data recorded before the occurrence of the accident (for example, suppose that we want to obtain voice data).
  • the sound processing apparatus has directivity in the place where the accident occurs, that is, the desired sound collection direction, because the place where the accident occurs is not necessarily the predetermined sound collection direction specified from the client in advance. It may be difficult to obtain voice data. That is, there is a problem that there is a high possibility that the effective information on the accident can not be obtained from the recorded video data and audio data.
  • An object of the present invention is to provide a speech processing system and a speech processing method for emphasizing and outputting.
  • the present invention is a sound collection unit including at least one image pickup unit for picking up an image, a display unit for displaying image data picked up by the image pickup unit, and a plurality of microphones, and collecting sound using the microphone And an audio output unit that outputs audio data collected by the sound collection unit, the video data captured by the imaging unit, and the audio data collected by the sound collection unit.
  • a recording unit a reproduction unit for causing the display unit to display the video data recorded in the recording unit, and causing the audio output unit to audibly output the audio data recorded in the recording unit; and displaying on the display unit
  • An operation unit that receives designation of one or more designated portions of the video data, and one or more of the video data designated by the sound collection unit based on the audio data recorded in the recording unit Comprising a signal processing unit which generates or synthesizes the audio data that emphasizes the orientation of the sound toward the position corresponding to the designated portion of the an audio processing system.
  • a step of capturing an image in at least one imaging unit a step of collecting audio in a sound collection unit including a plurality of microphones, and display on the display unit of image data captured by the imaging unit And recording the video data captured by the imaging unit and the audio data collected by the collection unit, and displaying the recorded video data on the display unit.
  • the step of causing the audio output unit to output audio data the step of accepting specification of one or more designated parts of the video data displayed on the display unit, and the sound collection based on the recorded audio data
  • Generates or synthesizes voice data emphasizing voice in a pointing direction toward a position corresponding to one or more designated portions of the designated video data from the It has a step, and a speech processing method.
  • FIG. 1 A schematic view showing an example of usage of the voice processing system according to the first embodiment, (A) For example, a situation where one camera and one microphone array are installed at a distance on the ceiling of an indoor hall (B) A diagram showing video data being displayed on a display and audio data being output by a speaker (A) For example, one microphone array at an intermediate position between two cameras and two cameras on the ceiling of a hall indoors And (B) a diagram showing video data taken by the camera 10 being displayed on
  • a diagram showing video data captured by the camera 10A being displayed on the display 63 and audio data being output as audio by the speaker 65 A schematic view showing an example of usage of the voice processing system of the fourth embodiment, (A) For example, a camera, a microphone array and a speaker installed on the ceiling of a hall indoors And (B) an explanatory view of the outline of the operation of the audio processing system when a plurality of designated parts are designated in the video data displayed on the display. A schematic diagram showing an example of usage of the voice processing system.
  • A For example, a donut shaped microphone array, a camera integrated with the microphone array, and a speaker installed on the ceiling of an indoor hall
  • B A diagram showing how two persons 91 and 92 are selected in the video data taken by the camera 10E
  • C A video data of two persons 91 and 92 after image conversion is displayed Is displayed on the screen, and the voice data of the conversation of the persons 91 and 92 is voice-outputted by the speaker 65.
  • D A state in which two persons 93 and 94 are selected in the video data captured by the camera 10E.
  • E The image data of the two persons 93 and 94 after image conversion is displayed on the display, and the audio data of the conversation of the persons 93 and 94 is displayed on the speaker 65.
  • FIG. 12 Shows a state in which the audio output Te (A), (B), (C) External view of other microphone arrays 20D, 20E, 20F Schematic diagram showing the operation of the display 63 and the speaker 65 when a plurality of designated parts are designated
  • An exploded perspective view of the housing structure of the microphone array of each embodiment A) A plan view of the housing structure of the microphone array shown in FIG. 12, (B) A cross-sectional view of FIG. 13 (A) The principal part enlarged view of the dotted line range of FIG.
  • FIG. 13 (B) (A) A perspective view showing how the punching metal cover is fixed to the main housing, (B) A sectional view showing how the punching metal cover is fixed to the main housing Schematic diagram of microphone mounting structure Top view of the microphone board (A) A diagram of a microphone substrate circuit in which one ripple removal circuit is provided in a plurality of microphone circuits, and (B) a diagram of a microphone substrate circuit in which a ripple removal circuit is provided in each of a plurality of microphone circuits (A) A perspective view of the microphone array housing structure in which the omnidirectional camera is attached without the camera adapter attached, (B) a perspective view of the microphone array housing structure in which the outdoor omnidirectional camera is attached together with the camera adapter Figure An exploded perspective view of the microphone array housing structure to which an indoor omnidirectional camera is attached An exploded perspective view of a microphone array housing structure to which an omnidirectional camera for outdoor use is attached (A) Side view of the housing structure of the microphone array to which the omnidirectional camera for outdoor use is attached, (B)
  • FIG. 22 (A) The principal part enlarged view of the dotted line range of FIG. An exploded perspective view of the housing structure of the microphone array to which the lid is attached An exploded perspective view of a housing structure attached to a ceiling using a mounting bracket (A) Side view of base plate side fixing pin before inserting into base plate fixing hole, (B) Side view of base plate metal side fixing pin inserted into base plate fixing hole, (C) Base plate fixing A plan view of the base metal plate side fixing pin inserted into the hole, (D) a side view of the base metal plate side fixing pin moved to the small diameter hole of the base metal plate fixing hole, (E) moving to the small diameter hole of the base metal plate fixing hole Plan view of the fixed base metal plate side fixing pin Cross-sectional view of a microphone array case structure in which a recess is provided in the ECM recess Cross section view of windproof microphone array case structure (A) A cross-sectional view of a microphone array case structure representing the relationship between the inner diameter and depth of the ECM recess, (B)
  • Audio from the second speaker emphasizing the sound in the second directivity direction toward the second audio position corresponding to the second designated location specified by the second identification shape, and outputting from the second speaker Diagram showing the situation The figure which shows a mode that the operation box for adjustment is displayed according to the clicking operation out of the display area of the video data displayed on the display in the state in which the video data shown to FIG. 31 (B) are displayed.
  • A An explanatory view of a usage example of the voice processing system according to the fourth embodiment, (B) a first identification shape displayed around a first designated place, displayed around a second designated place The display of an example of the second identification shape, and the enhancement of the voice in the first pointing direction toward the first voice position corresponding to the first designated portion specified by the first identification shape.
  • Audio from the second speaker emphasizing the sound in the second directivity direction toward the second audio position corresponding to the second designated location specified by the second identification shape, and outputting from the second speaker Diagram showing the situation In the state where the video data shown in FIG. 31 (B) is displayed, the video data captured by the omnidirectional camera and the operation box for adjustment are displayed for each click operation of the video data displayed on the display to the outside of the display area.
  • Figure showing how to switch and display The figure which shows a mode that the box for state marking is displayed according to the clicking operation out of the display area of the video data displayed on the display in the state where the video data shown to FIG. 31 (B) are displayed.
  • FIG. 1 An explanatory view of a usage example of the voice processing system according to the fourth embodiment
  • the voice data emphasizing the voice in the first pointing direction toward the first voice position corresponding to the first designated location identified by the identification shape, and the second designated location identified by the second identification geometry
  • Voice data emphasizing voice in a second pointing direction toward a corresponding second voice position, and third voice position toward a third voice position corresponding to a third designated location specified by a third identification shape
  • the figure which shows a mode that the operation box for adjustment is displayed according to simultaneous pressing operation of the several specific key of a keyboard in the state in which the video data shown to FIG.
  • FIG. 36 (B) are displayed.
  • the voice processing system of each embodiment is applied to a monitoring system (including a manned surveillance system and an unmanned surveillance system) installed in a factory, a public facility (for example, a library or an event site), or a store (for example, a retail store, a bank) Ru.
  • a monitoring system including a manned surveillance system and an unmanned surveillance system
  • a public facility for example, a library or an event site
  • a store for example, a retail store, a bank
  • FIG. 1A and FIG. 1B are block diagrams showing system configurations of the speech processing systems 5A and 5B of the respective embodiments.
  • the audio processing system 5A is configured to include surveillance cameras 10 and 10A, a microphone array 20, and an audio processing device 40.
  • the cameras 10 and 10A, the microphone array 20, and the audio processing device 40 are mutually connected via the network 30.
  • the voice processing system 5B is configured to include surveillance cameras 10B and 10C, a microphone array 20A, a recorder 45A, and a PC (Personal Computer) 70.
  • the cameras 10B and 10C, the microphone array 20A, the recorder 45A, and the PC 70 are mutually connected via the network 30A.
  • each part of the speech processing system 5A will be mainly described below, and the operation of each part of the speech processing system 5B will be described different from the operation of the speech processing system 5A.
  • the cameras 10 and 10A as imaging units are monitoring cameras installed on a ceiling (for example, see FIG. 6) in the room of the event hall, for example, and are remote from a monitoring system control room (not shown) connected via the network 30. It has a pan-tilt function, zoom-in function and zoom-out function that can be operated, and captures images (including still images and moving images, etc.) around the point (location) to be monitored.
  • the cameras 10 and 10 ⁇ / b> A record the data of the captured video (video data) on the recorder 45 via the network 30.
  • the microphone array 20 as a sound collection unit is, for example, a microphone which is installed on a ceiling (see, for example, FIG. 6) indoors of an event hall and in which a plurality of microphones 22 (see, for example, FIG. 2) are uniformly provided.
  • the microphone array 20 picks up the sound around the point (location) to be monitored using each of the microphones 22, and the data (voice data) of the sound picked up by each of the microphones 22 through the network Record on the recorder 45.
  • the structure of the microphone array 20 will be described later with reference to FIG.
  • the audio processing device 40 is configured to include a recorder 45, a signal processing unit 50, an operation unit 55, and a reproduction unit 60.
  • the recorder 45 is configured to include a control unit (not shown) for controlling each process such as recording of data in the recorder 45 and a recording unit (not shown) for storing video data and audio data.
  • the recorder 45 associates the video data captured by the cameras 10 and 10A with the audio data collected by the microphone array 20 and records them.
  • the signal processing unit 50 is configured using, for example, a central processing unit (CPU), a micro processing unit (MPU), or a digital signal processor (DSP), and is a control for totally controlling the operation of each unit of the audio processing device 40. Execute processing, data input / output processing with other units, data calculation (calculation) processing, and data storage processing.
  • CPU central processing unit
  • MPU micro processing unit
  • DSP digital signal processor
  • the signal processing unit 50 adds each voice data collected by each microphone by directivity control processing of voice data to be described later using the voice data recorded in the recorder 45, and each microphone of the microphone array 20 In order to emphasize (amplify) sound (volume level) from a position 22 to a specific direction, audio data having directivity in a specific direction is generated. Also, the signal processing unit 50 uses voice data transmitted from the microphone array 20 to enhance (amplify) the volume level of voice from the microphone array 20 in a specific direction (directed direction). Audio data having directivity may be generated.
  • the specific direction is a direction from the microphone array 20 toward a position corresponding to a predetermined designated portion designated from the operation unit 55, and designated by the user in order to emphasize (amplify) the volume level of audio data. Direction.
  • the signal processing unit 50 measures the coordinate system of the video data recorded in the recorder 45 (for example, x axis, y axis, z The conversion processing of two-dimensional or three-dimensional coordinate conversion among the axes is performed, and the image data after the conversion processing is displayed on the display 63 (see FIGS. 9C and 9E).
  • the operation unit 55 is disposed, for example, in correspondence with the screen of the display 63, and is configured using a touch panel or a touch pad that allows an input operation with the user's finger 95 or a stylus pen.
  • the operation unit 55 outputs, to the signal processing unit 50, data of the coordinates of one or more designated places where enhancement (amplification) of the volume level of the audio data is desired according to the user's operation.
  • the operation unit 55 may be configured using a pointing device such as a mouse or a keyboard.
  • the reproduction unit 60 is configured to include a display 63 and a speaker 65, causes the display 63 to display the video data recorded in the recorder 45, and causes the speaker 65 to output audio data recorded in the recorder 45.
  • the display 63 and the speaker 65 may be configured separately from the reproduction unit 60.
  • a display 63 as a display unit displays video data captured by the cameras 10 and 10A and recorded in the recorder 45.
  • the speaker 65 as an audio output unit is audio data collected by the microphone array 20 and recorded in the recorder 45, or an audio that has been subjected to enhancement processing in a specific direction by the signal processing unit 50 based on the audio data. Voice out the data.
  • the audio processing device 40 may be configured as an apparatus in which the recorder 45 and the other units in the audio processing device 40 are different (see FIG. 1B).
  • the audio processing device 40 shown in FIG. 1 (A) may include the recorder 45A shown in FIG. 1 (B) and the PC 70 shown in FIG. 1 (B). That is, the PC 70 is configured using a general-purpose computer, and includes the signal processing unit 71, the reproduction unit 72 including the display 73 and the speaker 75, and the operation unit 78.
  • the recorder 45A and the PC 70 correspond to the audio processing device 40 in the audio processing system 5A, and implement the same function and operation.
  • the functions of the cameras 10B and 10C and the microphone array 20A are the same as the functions of the cameras 10 and 10A and the microphone array 20 in the audio processing system 5A, respectively.
  • the number of cameras installed in the voice processing systems 5A and 5B is arbitrary. Also, the networks 30, 30A may be connected to each other to enable data transfer between the voice processing systems 5A and 5B.
  • FIG. 2A is an external view of the microphone array 20.
  • the microphone array 20 is configured to include a plurality of microphones 22 arranged in a disk-shaped housing 21.
  • the plurality of microphones 22 are disposed along the surface of the housing 21 and disposed along two small concentric circles having the same center as the housing 21 and a large circular concentric circle.
  • the plurality of microphones 22A arranged along a small circle are closely spaced from one another, and have characteristics suitable for a high sound range.
  • the plurality of microphones 22B arranged along a large circle has a large diameter and has characteristics suitable for a low sound range.
  • FIG. 2B is a view showing the appearance of the microphone array 20C and the attached state of the microphone array 20C and the omnidirectional camera 10E (see FIG. 9A) in the third embodiment.
  • the microphone array 20C shown in FIG. 2B has a configuration including a doughnut-shaped casing 21C having an opening 21a formed therein and a plurality of microphones 22C uniformly provided in the casing 21C. is there.
  • the plurality of microphones 22C are arranged concentrically with respect to the housing 21C.
  • the omnidirectional camera 10E shown in FIG. 9A is attached to the inside of the opening 21a of the housing 21C in a state of being inserted.
  • the omnidirectional camera 10E is, for example, a camera equipped with a fisheye lens, and is mounted so as to image a wide range of the floor surface of the hole.
  • the omnidirectional camera 10E and the microphone array 20C are coaxially disposed with the center of the housing 21C of the microphone array 20C in common, the same coordinate system can be used.
  • FIG. 3 is an explanatory view of the principle of directivity control processing using the microphone array 20.
  • the principle of the directivity control process using the delay-sum method will be briefly described with reference to FIG.
  • the sound source 80 is disposed in the direction of the predetermined angle ⁇ with respect to the surface of the housing 21 of the microphone array 20.
  • the intervals between the microphones 22a, 22b, 22c, ..., 22n-1, 22n are constant.
  • the sound wave emitted from the sound source 80 first reaches the microphone 22a and is collected, then reaches the microphone 22b and is collected, is collected one after another, and finally reaches the microphone 22n and is collected .
  • the direction from the position of each of the microphones 22a, 22b, 22c, ..., 22n-1, 22n of the microphone array 20 toward the sound source 80 is, for example, when the sound source 80 is a voice during a person's conversation or surrounding music. Assuming a case, in order to emphasize (amplify) the volume level of voice during conversation of a person or voice data of surrounding music, it may be considered to be the same as a direction corresponding to a predetermined range designated from operation unit 55 it can.
  • the time difference between arrival time ⁇ 1, ⁇ 2, ⁇ 3, ..., ⁇ n- from the time when the sound wave reaches the microphone 22n collected last is 1 will occur.
  • the voice data collected by each of the microphones 22a, 22b, 22c,..., 22n-1, 22n are added as they are, they are added with a phase shift, so the sound volume level of the sound wave is It will be weak overall.
  • ⁇ 1 is the time difference between the time when the sound wave reaches the microphone 22a and the time when the sound wave reaches the microphone 22n
  • ⁇ 2 is the time when the sound wave reaches the microphone 22b and the time when the sound wave reaches the microphone 22n
  • the time of the difference is
  • .tau.n-1 is the time of the difference between the time when the sound wave reaches the microphone 22n-1 and the time when the sound wave reaches the microphone 22n.
  • the signal processing unit 50 is provided with the A / D converters 51a, 51b, 51c provided corresponding to the microphones 22a, 22b, 22c, ..., 22n-1, 22n. 51n-1, 51n, delay devices 52a, 52b, 52c,..., 52n-1, 52n, and an adder 57 (see FIG. 3).
  • the signal processing unit 50 converts analog voice data collected by the microphones 22a, 22b, 22c, ..., 22n-1, 22n into A / D converters 51a, 51b, 51c, ..., 51n-1. , 51 n to obtain digital audio data. Furthermore, in the delay units 52a, 52b, 52c,..., 52n-1, 52n, the signal processing unit 50 corresponds to the delay time corresponding to the arrival time difference in each of the microphones 22a, 22b, 22c, ..., 22n-1, 22n. After applying and aligning the phases, the adder 57 adds the delayed voice data.
  • the signal processing unit 50 can generate voice data in which voice data in the direction of the predetermined angle ⁇ from the installation position of each of the microphones 22a, 22b, 22c, ..., 22n-1, 22n is emphasized.
  • L1 is a difference between sound wave arrival distances at the microphones 22a and 22n.
  • L2 is the difference of the sound wave arrival distance in the microphone 22b and the microphone 22n.
  • L3 is a difference between sound wave arrival distances at the microphones 22c and 22n.
  • Ln-1 is a difference between sound wave reach distances at the microphone 22n-1 and the microphone 22n.
  • Vs is the speed of sound.
  • L1, L2, L3, ..., Ln-1, Vs are known values.
  • the delay time Dn set in the delay unit 52n is 0 (zero).
  • the signal processing unit 50 changes the delay times D1, D2, D3, ..., Dn-1, Dn set in the delay units 52a, 52b, 52c, ..., 52n-1, 52n, respectively.
  • the voice data recorded in the recorder 45 can be used to generate voice data emphasizing voice data in an arbitrary direction with reference to the installation position of the microphone array 20, and the voice data in the voice processing systems 5A and 5B can be generated.
  • the directivity control process can be easily performed.
  • FIG. 4 is a flow chart for explaining the operation procedure at the time of recording of the voice processing system 5A.
  • the cameras 10 and 10A start imaging of an image around a point (place) to be monitored (S1).
  • the microphone array 20 starts to pick up sound around a point (place) to be monitored (S2).
  • the cameras 10 and 10A transfer the captured video data to the recorder 45 connected via the network 30.
  • the microphone array 20 transfers the collected audio data to the recorder 45 connected via the network 30.
  • the recorder 45 stores and records all the video data transferred from the cameras 10 and 10A and the audio data transferred from the microphone array 20 in the recording medium in association with each other (S3). By the remote control from the user, the recording operation of the cameras 10 and 10A, the microphone array 20 and the recorder 45 is ended.
  • FIG. 5 is a flow chart for explaining the operation procedure at the time of reproduction of the audio processing systems 5A and 5B in the case of designating one or more designated parts.
  • the recorder 45 of the audio processing device 40 receives designation of video data to be reproduced by a direct operation from the user or remote control (S11).
  • the video data for example, the date and time of recording and the type of camera are used as conditions.
  • the reproduction unit 60 reproduces the video data according to the conditions specified in step S11, and causes the screen of the display 63 to display the data. Furthermore, the reproduction unit 60 also reproduces audio data stored in the recorder 45 in association with the reproduced video data, and causes the speaker 65 to output audio.
  • the user can use the operation unit 55 to select the audio (volume level) of the video data displayed on the screen of the display 63. It is assumed that one or more designated places for emphasizing (amplifying) are specified.
  • the signal processing unit 50 receives the designation of one or more designated places for emphasizing (amplifying) the sound (volume level) in the contents of the video data in accordance with the designation operation of the user (S12).
  • a designated place designated by the user to form directivity in a direction (directing direction) to emphasize (amplify) sound (volume level) with reference to the microphone arrays 20 and 20A via the operation unit 55 Is abbreviated as "specified part”.
  • step S12 for example, when the user touches the screen of the display 63 with the finger 95, an audio of a predetermined rectangle centering on a designated place for the video data displayed on the screen of the display 63 or a designated place touched. Suppose that the emphasis range is specified.
  • the signal processing unit 50 selects one or more specified locations or sounds from the center position of the position of each microphone 22 of the microphone array 20 based on the one or more specified locations or the voice emphasis range specified via the operation unit 55.
  • the directions (directed directions) toward each position (each audio position) of the actual site corresponding to, for example, the center of the emphasis range are the directions of the predetermined angles ⁇ 1, ⁇ 2,..., ⁇ n described with reference to FIG. , It calculates as each direction (each directivity direction) which emphasizes (amplifies) audio
  • the signal processing unit 50 directs each of the audio data stored in the recorder 45 in association with the video data currently being reproduced by the reproduction unit 60 to the calculated predetermined angles ⁇ 1, ⁇ 2,.
  • the voice data forming the voice that is, the voice data in which the voice (volume level) of the predetermined angles ⁇ 1, ⁇ 2,..., ⁇ n is emphasized (amplified) is generated (S13).
  • the signal processing unit 50 points in a direction from the center position of the position of each microphone 22 of the microphone array 20 toward one or more designated places or each sound position corresponding to, for example, the center of the sound enhancement range.
  • the voice data forming the character is generated or synthesized, but the direction (predetermined angles ⁇ 1, ⁇ 2,..., ⁇ n) further from the direction toward each voice position corresponding to one or more designated places or voice emphasis range (a direction (predetermined angle) For example, audio data for a direction deviated by ⁇ 5 degrees or more from the predetermined angles ⁇ 1, ⁇ 2,.
  • the reproduction unit 60 performs the processing of step S11 for each audio data in which the voice (volume level) in the direction toward each audio position corresponding to one or more designated places or audio emphasis ranges is enhanced (amplified) by the signal processing unit 50.
  • the speaker 65 outputs the sound (S14). Thereby, the operation at the time of reproduction of the audio processing device 40 ends.
  • FIG. 6 is a schematic view showing an example of usage of the speech processing system 5A of the first embodiment.
  • FIG. 6A is a view showing a state in which, for example, one camera 10 and one microphone array 20 are separated on the ceiling 85 of a hall as an indoor event hall.
  • FIG. 6A two persons 91 and 92 stand on the floor 87 of the hall and have a conversation.
  • a speaker 82 is placed in contact with the floor 87 and music flows from the speaker 82.
  • the camera 10 captures images of persons 91 and 92 around a monitoring target point (place) set in advance in the camera 10.
  • the microphone array 20 picks up the sound of the entire hole.
  • FIG. 6B is a view showing video data being displayed on the display 63 and audio data being output by the speaker 65 as audio.
  • the screen of the display 63 displays video data captured by the camera 10. Further, from the speaker 65, the conversation in the two persons 91 and 92 or the music in the hall is output as an audio.
  • the signal processing unit 50 uses a voice collected by the microphone array 20, that is, each voice data collected by the microphones 22, from the position of each microphone 22 of the microphone array 20 to a touch point 63a designated by the user or
  • the voice data in which the directivity is formed in the directivity direction (direction indicated by the symbol e shown in FIG. 6A) directed to the voice position corresponding to the center of the rectangular range 63b is generated.
  • the signal processing unit 50 uses the audio data collected by the microphones 22 to generate audio corresponding to the center of the touch point 63a or the rectangular range 63b designated by the user from the position of each microphone 22 of the microphone array 20. Voice data is generated in which voice (volume level) in a pointing direction toward a position is emphasized (amplified).
  • the playback unit 60 synchronizes the audio data generated by the signal processing unit 50 with the video data captured by the camera 10 and causes the speaker 65 to output audio.
  • the voice data in the touch point 63a or the rectangular range 63b designated by the user is emphasized, and the conversation between the two persons 91 and 92 from the speaker 65 (for example, see “Hello” shown in FIG. Sound is output according to the volume.
  • music shown in FIG. 6A
  • ⁇ ⁇ is not emphasized and output as voice, and is output as voice with a smaller volume compared to the conversation between two persons 91 and 92.
  • the audio processing system 5A or 5B emphasizes the audio data in the video for an arbitrary reproduction time designated by the user during reproduction of the video data and the audio data recorded in the recorder 45. Can be output.
  • the user can simply touch a portion where he / she wants to emphasize audio data and designate it while looking at the video data displayed on the screen of the display 63, and the designated range or the designated range including the designated portion (voice emphasis Voice data in the range) can be emphasized and voice output can be performed.
  • the user can easily obtain audio information in a range necessary for the user while viewing the video data captured by the camera 10 on the display 63. it can.
  • the voice processing system 5A or 5B has directivity in the direction from the position of each microphone 22 of the microphone array 20 toward the point of occurrence of the accident even when some accident occurs or after the occurrence of the accident.
  • the voice processing system 5A or 5B has directivity in the direction from the position of each microphone 22 of the microphone array 20 toward the point of occurrence of the accident even when some accident occurs or after the occurrence of the accident.
  • the camera 10 and the microphone array 20 are installed on the ceiling 85 such as an indoor hall, it is possible to monitor all over the inside of the hall. .
  • Second Embodiment In the first embodiment, an example of usage of the voice processing system 5A when there is one camera has been described. In the second embodiment, an example of usage of the voice processing system 5C in the case where there are a plurality of (for example, two) cameras will be described.
  • the voice processing system 5C of the second embodiment has the same configuration as the voice processing system 5A or 5B of the first embodiment except that a plurality of cameras (for example, two) are used.
  • a plurality of cameras for example, two
  • the same components as those of the voice processing system 5A or 5B according to the first embodiment are denoted by the same reference numerals, and the description thereof will be omitted.
  • FIG. 7 is a schematic view showing an example of usage of the speech processing system 5C of the second embodiment.
  • FIG. 7A for example, two microphones 10 and 10A, one microphone array 20 at an intermediate position between the two cameras 10 and 10A, and a speaker 83 are installed on the ceiling 85 of an indoor hall, for example.
  • FIG. 7A for example, two microphones 10 and 10A, one microphone array 20 at an intermediate position between the two cameras 10 and 10A, and a speaker 83 are installed on the ceiling 85 of an indoor hall, for example.
  • a speaker 82 is placed on the floor 87 at a position between these two sets, and music is flowing. Further, the speaker 83 is installed on a ceiling 85 almost right above the person 93 and the person 94.
  • the camera 10 captures images of two persons 91, 92 from positions slightly away from the four persons 91, 92, 93, 94, and the microphone array 20 is installed on the ceiling 85 almost directly above the speaker 82 The sound of the whole hall is being picked up.
  • the camera 10A images the persons 93 and 94 from positions slightly away from the four persons 91, 92, 93 and 94.
  • FIG. 7B is a view showing video data captured by the camera 10 being displayed on the display 63 and audio data being output by the speaker 65 as audio.
  • the screen of the display 63 displays video data captured by the camera 10. Further, from the speaker 65, the conversation in the two persons 91 and 92 or the music in the hall is output as an audio.
  • the signal processing unit 50 uses a voice collected by the microphone array 20, that is, each voice data collected by the microphones 22, from the position of each microphone 22 of the microphone array 20 to a touch point 63a designated by the user or
  • the voice data in which the directivity is formed in the directivity direction (direction indicated by symbol e shown in FIG. 7A) directed to the voice position corresponding to the center of the rectangular range 63b is generated.
  • the signal processing unit 50 uses the audio data collected by the microphones 22 to generate audio corresponding to the center of the touch point 63a or the rectangular range 63b designated by the user from the position of each microphone 22 of the microphone array 20. Voice data is generated in which voice (volume level) in a pointing direction toward a position is emphasized (amplified).
  • the playback unit 60 synchronizes the audio data generated by the signal processing unit 50 with the video data captured by the camera 10 and causes the speaker 65 to output audio.
  • the voice data in the touch point 63a or the rectangular range 63b designated by the user is emphasized, and the conversation between the two persons 91 and 92 from the speaker 65 (for example, see “Hello” shown in FIG. 7A) is large. Sound is output according to the volume.
  • music which is placed at a distance closer to the microphone array 20 than the two persons 91 and 92 but flows from the speaker 82 which is not included in the rectangular range 63 b designated by the user (FIG. 7A) ) Is emphasized and not output as an audio signal, but is output as an audio signal with a smaller volume compared to the conversation between the two persons 91 and 92.
  • FIG. 7C is a view showing video data captured by the camera 10A being displayed on the display 63 and audio data being output by the speaker 65 as audio.
  • video data captured by the camera 10A is displayed on the screen of the display 63.
  • the conversation in the two persons 93 and 94 or the music in the hall is output as an audio.
  • the signal processing unit 50 uses a voice collected by the microphone array 20, that is, each voice data collected by the microphones 22, from the position of each microphone 22 of the microphone array 20 to the touch point 63c designated by the user or
  • the voice data in which the directivity is formed in the pointing direction (direction indicated by symbol f shown in FIG. 7A) directed to the voice position corresponding to the center of the rectangular range 63d is generated.
  • the signal processing unit 50 uses the audio data collected by the microphones 22 to generate an audio corresponding to the center of the touch point 63c or the rectangular range 63d designated by the user from the position of each microphone 22 of the microphone array 20.
  • Voice data is generated in which voice (volume level) in a pointing direction toward a position is emphasized (amplified).
  • the playback unit 60 synchronizes the audio data generated by the signal processing unit 50 with the video data captured by the camera 10A and causes the speaker 65 to output audio.
  • the voice data in the touch point 63c or the rectangular range 63d designated by the user is emphasized, and the conversation of the two persons 91 and 92 from the speaker 65 (see, for example, "Hi" shown in FIG. Sound is output according to the volume.
  • the music flowing from the speaker 82 placed at a distance closer to the microphone array 20 than the two persons 93 and 94 but not included in the rectangular range 63 d designated by the user (FIG. 7A) ) Is emphasized and not output as an audio signal, but is output as an audio output at a volume smaller than that of the conversation between the two persons 93 and 94.
  • the audio processing system 5C is specified for the video data in any camera 10 or 10A specified by the user during reproduction of the video data and the audio data recorded in the recorder 45. It is possible to emphasize and output audio data in video for an arbitrary reproduction time. In this way, the user can easily designate a designated area simply by touching and designating a portion where the user wishes to emphasize (amplify) the sound (volume level) while viewing the video data captured by the camera 10 or 10A on the display 63. Audio data can be emphasized and output in a designated range including a portion or a designated portion thereof. As described above, in the audio processing system 5C according to the present embodiment, the user can easily obtain audio information in a range necessary for the user while viewing the video data captured by the camera 10 or 10A on the display 63. it can.
  • the number of installed cameras in the audio processing system 5C may be plural, the number of microphone arrays does not have to be increased according to the number of cameras, and the cost is reduced.
  • a possible voice processing system 5C can be constructed, and space saving of the voice processing system 5C can be achieved.
  • the voice processing system 5C can add the second camera 10A to the voice processing system 5A or 5B in which the first camera 10 is already installed. Operation and effects similar to those of 5B can be obtained, and the extensibility of the speech processing system can be improved.
  • the voice processing system 5A or the voice processing system 5B of the first embodiment is used except that the omnidirectional camera and the microphone array are integrally and coaxially installed. Since the configuration is the same, the same components as those of the speech processing system 5A or 5B of the first embodiment are denoted by the same reference numerals, and the description thereof will be omitted.
  • FIG. 9 is a schematic view showing an example of usage of the speech processing system 5D.
  • FIG. 9A shows, for example, a donut shaped microphone array 20C, an omnidirectional camera 10E integrated with the microphone array 20C, and a speaker 83 installed on a ceiling 85 of an indoor hole.
  • FIG. 9A the conversation status of the persons 91, 92, 93, 94 and the operation status of the speakers 82, 83 are the same as those in the second embodiment.
  • FIG. 9B is a diagram showing how two persons 91 and 92 are selected in the video data captured by the omnidirectional camera 10E.
  • FIG. 9B on the screen of the display 63, video data using the coordinate system of the omnidirectional camera 10E, that is, video data captured by the omnidirectional camera 10E is displayed as it is.
  • FIG. 9C is a view showing video data of two persons 91 and 92 after image conversion being displayed on the display, and audio data of conversation of the persons 91 and 92 being audio-output at the speaker 65. is there.
  • the signal processing unit 50 performs the same processing as that of the image data of the range of the code g including the designated part designated by the user among the wide range video data captured by the omnidirectional camera 10E. Convert coordinate system.
  • the reproduction unit 60 causes the display 63 to display video data whose signal processing unit 50 has converted the coordinate system (see FIG. 9C).
  • the range g is automatically generated from the touch point of the finger 95. Further, the description of the operation of the signal processing unit 50 similar to that of the second embodiment is omitted.
  • the voice data in the range g designated by the user is emphasized, and the conversation of the two persons 91 and 92 (see, for example, “Hello” shown in FIG. Ru.
  • Certain music is not emphasized and outputted as voice, but is outputted as voice with a small volume as compared with the conversation between two persons 91 and 92.
  • FIG. 9D is a diagram showing how two persons 93 and 94 are selected in the video data captured by the omnidirectional camera 10E.
  • FIG. 9D on the screen of the display 63, video data using the coordinate system of the omnidirectional camera 10E, that is, video data captured by the omnidirectional camera 10E is displayed as it is.
  • FIG. 9E is a view showing video data of two persons 93 and 94 after image conversion being displayed on the display, and audio data of conversation of the persons 93 and 94 being audio-output at the speaker 65. is there.
  • the signal processing unit 50 performs processing of the image data of the range of the code h including the designated portion designated by the user from the wide range video data captured by the omnidirectional camera 10E. Convert coordinate system.
  • the reproduction unit 60 causes the display 63 to display video data whose signal processing unit 50 has converted the coordinate system (see FIG. 9E).
  • the range h is automatically generated from the touch point of the finger 95. Further, the description of the operation of the signal processing unit 50 similar to that of the second embodiment is omitted.
  • the voice data in the range h designated by the user is emphasized, and the conversation between the two persons 93 and 94 (see, for example, “Hi” shown in FIG. Ru.
  • the conversation between the two persons 93 and 94 flows from the speaker 82 which is placed at a distance closer to the microphone array 20C than the two persons 93 and 94 but is not included in the designated part designated by the user or the designated range h including the designated part.
  • Certain music is not emphasized and outputted as voice, but is outputted as voice with a small volume as compared with the conversation between two persons 93 and 94.
  • the audio processing system 5D can detect the position of the subject in the video data captured by the omnidirectional camera 10E and the subject person collected by the microphone array 20C.
  • the conversion process of the coordinate system for correlating with the direction of the audio can be facilitated, and the load of the reproduction process in which the video data and the audio data are synchronized in the reproduction unit 60 can be reduced. .
  • the audio processing system 5D converts the video data included in the designated area designated by the user or the designated area g or the designated area h including the designated area into video data in accordance with the screen size of the display 63.
  • the video data captured by the omnidirectional camera 10E can be displayed in a display format of video data that has a natural aspect ratio for the display 63.
  • FIGS. 10A to 10C are external views of the other microphone arrays 20D, 20E, and 20F.
  • the diameter of the disk-shaped casing 21D is smaller than that of the microphone array 20 shown in FIG.
  • a plurality of microphones 22D are uniformly arranged along a circle. Since the distance between the microphones 22D is short, the microphone array 20D has characteristics suitable for a high sound range.
  • a plurality of microphones 22E are uniformly arranged along the rectangle on the surface of the casing 21E having a rectangle. Since the case 21E is formed in a rectangular shape, the microphone array 20E can be easily installed even at a place such as a corner.
  • the plurality of microphones 22F are uniformly arrayed in the vertical and horizontal directions on the surface of the disk-shaped housing 21F. Since the plurality of microphones 22F are linearly arranged, the process of enhancing the sound in the signal processing unit 50 can be simplified.
  • the plurality of microphones 22F may be disposed only in one row in the longitudinal direction or the lateral direction.
  • the designated portion where enhancement of the sound is desired or the designated range including the designated portion is arbitrarily designated by the finger 95 by touch.
  • the screen of the display 63 may be divided in advance into a plurality of sections (for example, four sections in the upper, lower, left, and right), and any one of the sections may be selected as a range to emphasize audio.
  • the camera records (records) a video and the display displays the recorded video data.
  • the camera captures a still image at a predetermined cycle
  • the display The present invention is also applicable to the case of displaying still images captured at intervals, that is, capturing images in real time and collecting audio. That is, the user can specify a predetermined range in the still image displayed on the screen of the display to emphasize the sound in the vicinity thereof.
  • the user touches the screen with the finger 95 to designate a designated range (for example, a range of an ellipse or a rectangle) including the touch point at which the finger 95 is touched.
  • a designated range for example, a range of an ellipse or a rectangle
  • the predetermined range may be designated by drawing a circle, a polygon or the like at 95.
  • the signal processing unit 50 may receive, from the operation unit 55, designation of a designated range (voice emphasis range) including a plurality of designated portions or each designated portion. In this case, the signal processing unit 50 performs an emphasizing process on audio data in accordance with each designated portion or designated range designated.
  • FIG. 11 is a schematic view showing the operation of the display 63 and the speaker 65 when a plurality of predetermined designated parts or designated ranges (voice emphasis ranges) are designated.
  • the operating conditions of the camera and the microphone array in which the voice processing system is used are the same as the operating conditions of the camera 10 and the microphone array 20 shown in FIG.
  • the signal processing unit 50 receives two voices from the position of each microphone 22 of the microphone array 20 according to the designation of the voice emphasis ranges 63e and 63f including two different designated places or different designated places from the speaker 65. Audio data in which directivity is formed in the directivity direction toward the audio position corresponding to the center of the persons 91 and 92, and further, the audio position corresponding to the center of the speaker 82 from the position of each microphone 22 of the microphone array 20 To generate voice data having directivity in the direction of.
  • FIG. 12 is an exploded perspective view of the housing structure of the microphone array 20 of each of the embodiments described above.
  • FIG. 13A is a plan view of the housing structure of the microphone array 20 shown in FIG.
  • FIG. 13B is a cross-sectional view taken along the line AA of FIG.
  • FIG. 14 is a main part enlarged view of a dotted line range of FIG. 13 (B).
  • the housing structure of the microphone array 20 shown in FIG. 12 has a configuration in which the main housing 101, the punching metal cover 103, the microphone sheet metal 105, and the base sheet metal 107 are stacked along the vertical direction.
  • the main housing 101, the punching metal cover 103, the microphone sheet metal 105, and the base sheet metal 107 constitute a shock resistant housing 109 (vandal-resistant casing) having four layers.
  • the main housing 101 is integrally formed of, for example, a resin.
  • the main housing 101 is formed in a bottomed cylindrical shape in which a plurality of microphone laying holes 113 are provided concentrically on the annular bottom portion 111.
  • the central portion of the annular bottom portion 111 is a camera mounting space 115.
  • the main casing outer peripheral wall 117 has the largest outer diameter in the casing structure of the microphone array 20 shown in FIG.
  • the punching metal cover 103 is, for example, integrally formed in a ring shape using metal as a material.
  • the punching metal cover 103 is attached to the main housing 101 so as to cover the annular bottom portion 111 of the main housing 101.
  • the punching metal cover 103 is provided with a large number of through holes (not shown) for making sound waves incident.
  • a raised edge 119 rising toward the main housing 101 is formed on the outer periphery of the punching metal cover 103 by drawing or the like.
  • the rising edge portion 119 is inserted into a circumferential groove 121 (see FIG. 14) formed on the lower surface of the main housing 101.
  • a plurality of elastic locking claws 123 project upward (upward in FIG. 12 or 14) at equal intervals in the circumferential direction.
  • FIG. 15A is a perspective view showing how the punching metal cover 103 is fixed to the main housing 101.
  • FIG. FIG. 15B is a cross-sectional view showing how the punching metal cover 103 is fixed to the main housing 101.
  • the elastic locking claw 123 is locked to the claw locking portion 125 by rotating through a locking hole 125 a provided on the back side of the circumferential groove 121.
  • the punching metal cover 103 is fixed to the main housing 101 by locking the elastic locking claw 123 to the claw locking portion 125.
  • the microphone sheet metal 105 is formed, for example, by pressing a metal plate.
  • the microphone sheet metal 105 is formed in a shape obtained by quartering an annular shape in the circumferential direction.
  • the microphone sheet metal 105 is fixed to the main housing 101 by a microphone sheet metal fixing screw (not shown).
  • the microphone metal plate 105 fixed to the main housing 101 holds the microphone housing 129 holding the microphone substrate 127 between the main housing 101 and the annular bottom portion 111 of the main housing 101 in a sandwiched state.
  • the microphone housing 129 is integrally formed of, for example, a resin.
  • the microphone housing 129 is formed in a shape obtained by quartering an annular shape in the circumferential direction.
  • ECM Electret Condenser Microphone
  • the microphone substrate 127 is attached to the microphone housing 129 in a state where the ECM 131 is at the lower side in FIG. Rubber parts are interposed between the microphone substrate 127 and the microphone housing 129 (see FIG. 14).
  • One microphone substrate 127 is attached to the microphone housing 129. Therefore, a total of four microphone substrates 127 are attached in the entire housing structure of the microphone array 20, and a total of sixteen ECMs 131 are installed in the entire housing structure of the microphone array 20.
  • the punching metal cover 103, the main housing 101, the microphone housing 129, the microphone sheet metal 105, and the base sheet metal 107 are sequentially shown in FIG. It is arranged towards the direction.
  • the plurality of members constitute a structure that resists an external force (impact force) from the lower direction shown in FIG. 12 of the microphone array 20.
  • the main housing 101 and the microphone housing 129 are not integrally configured but separately configured, external force (impact force) from the lower direction shown in FIG. And deformation of the microphone housing 129 can be prevented. Thereby, even after an external force is applied, it is possible to maintain the shape of the microphone array 20 at the time of sound collection, and it is possible to prevent the deterioration of the acoustic characteristics at the time of sound collection of the microphone array 20.
  • the base sheet metal 107 is integrally formed, for example, by pressing (drawing) a metal material.
  • the base sheet metal 107 has an annular top plate portion 133 and is formed in a bottomed cylindrical shape. That is, from the outer periphery of the annular bottom portion 111, the base sheet metal outer peripheral wall 135 is bent downward.
  • the base sheet metal outer peripheral wall 135 is obtained by drawing a blank of the large-diameter annular top plate portion 133.
  • the base sheet metal 107, on which the base sheet metal outer peripheral wall 135 is drawn, has higher strength than other constituent members.
  • the base sheet metal 107 is fixed to the main housing 101 by a base sheet metal fixing screw (not shown).
  • the base plate metal 107 includes, for example, a main substrate 139 on which components for controlling processing of the microphone array 20 are mounted between the microphone plate metal 105 and, for example, components for supplying power to each part of the microphone array 20. And the like are disposed.
  • the main substrate 139 and the power supply substrate 141 are respectively provided one by one in the entire casing structure of the microphone array 20 shown in FIG.
  • a plurality of fitting portions 143 stand from the microphone sheet metal 105 at equal intervals in the circumferential direction.
  • the fitting portion 143 includes a pair of sandwiching pieces (an outer sandwiching piece 145 and an inner sandwiching piece 147) which are separated in the radial direction.
  • the fitting portion 143 is disposed on the inner side of the main housing outer peripheral wall 117 with a gap 149.
  • the base sheet metal outer peripheral wall 135 is fitted to the fitting portion 143. That is, in the case structure of the microphone array 20 shown in FIG. 12, the main case outer peripheral wall 117, the gap 149, the outer clamping piece 145, the base sheet metal peripheral wall 135, and the inner clamping piece 147 are arranged in the radial direction It is arranged towards the inside.
  • the stacked members constitute a structure that resists an external force (impact force) from the side of the microphone array 20.
  • a contact stopping portion 137 which stands up and protrudes, and although it is usually at a position separated from the base sheet metal 107, when an external force is applied and the main housing 101 is deformed, the contact stopping portion 137 acts against the base metal plate 107 to prevent the main housing 101 from being greatly distorted.
  • FIG. 16 is a schematic view of an attachment structure of ECM.
  • the microphone substrate 127 is disposed below the microphone sheet metal 105, and the main substrate 139 and the power supply substrate 141 are disposed above the microphone sheet metal 105. That is, the microphone substrate 127, the main substrate 139, and the power supply substrate 141 are arranged in a two-story structure.
  • the first microphone substrate 127, the second microphone substrate 127, the third microphone substrate 127, and the fourth microphone substrate 127 are sequentially arranged in one direction around the circumference. I assume.
  • the main substrate 139 is connected to the first microphone substrate 127 and the fourth microphone substrate 127 by the power supply wiring 151.
  • the first microphone substrate 127 is connected to the second microphone substrate 127.
  • the fourth microphone board 127 is connected to the third microphone board 127.
  • the ECM 131 is attached to the lower surface side of the microphone substrate 127.
  • a pair of pin terminals 153 project from the ECM 131.
  • each pin terminal 153 is inserted into a terminal pin insertion hole (not shown) provided in a predetermined circuit of the microphone substrate 127, and is directly connected and fixed by, for example, solder.
  • thinning height reduction
  • direct attachment of the ECM 131 to the microphone substrate 127 reduces the material cost.
  • FIG. 17 is a plan view of the microphone substrate 127.
  • FIG. Four ECMs 131 are attached to one microphone substrate 127 shown in FIG.
  • the difference in line length connected to each ECM 131 causes a phase difference in the sound wave signal, and as a result, this phase difference becomes a deviation of the directivity angle.
  • the line lengths connected to the respective ECMs 131 should be as equal as possible.
  • a microphone substrate circuit is configured by a combination of two ECMs 131 and one AD converter 155.
  • the microphone substrate circuit is configured such that one AD converter 155 is disposed equidistantly from each ECM 131 between two ECMs 131, thereby amplifying the analog line 157 between the AD converter 155 and the ECM 131 via an amplifier circuit. Wiring is made to be the shortest and have the same line length. Thereby, the microphone substrate circuit can equalize the level of the noise signal in the microphone substrate 127 in each ECM, and can reduce the deviation of the directivity angle.
  • FIG. 18A shows a diagram of a microphone substrate circuit in which one ripple removing circuit 161 is provided for a plurality of microphone circuits 159.
  • FIG. 18B is a diagram of a microphone substrate circuit in which the ripple removal circuit 161 is provided for each of the plurality of microphone circuits 159.
  • a ripple removal circuit 161 is provided between the microphone circuit 159 in which the ECM is disposed and the power supply substrate 141.
  • the ripple removal circuit 161 is a filter that passes a DC signal but cuts an AC signal of a specific frequency.
  • one ripple removal circuit 161 can be provided between the four microphone circuits 159 and the power supply substrate 141 connected in parallel. In this case, the manufacturing cost of the microphone array 20 can be reduced.
  • the ripple removing circuit 161 may be provided between each of the four microphone circuits 159 and the power supply substrate 141 as shown in FIG. In this case, the inflow of signals between different ECMs is reduced, and so-called crosstalk 163 can be suppressed.
  • FIG. 19A is a perspective view of the housing structure of the microphone array 20 to which the omnidirectional camera is attached without the camera adapter being attached.
  • FIG. 19B is a perspective view of the housing structure of the microphone array 20 in which the outdoor omnidirectional camera 165 is attached together with the camera adapter.
  • FIG. 20 is an exploded perspective view of the housing structure of the microphone array 20 to which the indoor omnidirectional camera 167 is attached.
  • FIG. 21 is an exploded perspective view of the housing structure of the microphone array 20 to which the outdoor omnidirectional camera 165 is attached.
  • FIG. 22A is a side view of the housing structure of the microphone array 20 to which the omnidirectional camera for outdoor use 165 is attached.
  • FIG. 22 (B) is a cross-sectional view taken along the line BB in FIG. 22 (A).
  • FIG. 23 is an enlarged view of an essential part of FIG.
  • an omnidirectional camera can be incorporated in the central camera mounting space 115.
  • the omnidirectional camera includes an outdoor omnidirectional camera 165 and an indoor omnidirectional camera 167.
  • FIG. 19A as the housing structure of the microphone array 20, for example, when the indoor omnidirectional camera 167 is attached to the camera mounting space 115, the main housing 101 of the microphone array 20 and the indoor omnidirectional camera There is a gap 169 between them and 167, and the inside of the microphone array 20 can be seen.
  • the condition in which the inside is visible is not only the deterioration of appearance as a product and the entrance of dust but also the sound enters the internal space of the microphone array 20 to cause resonance or reflection and cause deterioration of acoustic performance. turn into.
  • omnidirectional cameras come in various sizes depending on the application and function. Providing the main chassis 101 of different sizes for each omnidirectional camera inevitably increases the manufacturing cost. By fixing the main housing 101 to one size and closing the gap using a camera adapter, the manufacturing cost can be reduced by using the camera adapter for the difference in the gap depending on the model of the omnidirectional camera.
  • the outdoor camera adapter 171 is attached to the periphery of the outdoor omnidirectional camera 165.
  • the indoor camera adapter 173 is attached around the indoor omnidirectional camera 167.
  • the indoor camera adapter 173 is formed in a tubular shape, for example, using a resin as a material.
  • a flange 175 for concealing a gap is formed at the lower end of the indoor camera adapter 173, and the flange 175 is an indoor omnidirectional camera 167 and the main housing 101 which occur when the indoor omnidirectional camera 167 is attached to the camera mounting space 115. Hide the gap 169 between.
  • a plurality of peripheral wall elastic claws 177 are formed in the interior camera adapter 173 at equal intervals along the circumferential direction in the plurality of cuts 179.
  • the indoor camera adapter 173 is attached with the peripheral wall elastic claws 177 locked to the camera housing 181 of the indoor omnidirectional camera 167.
  • a plurality of camera fixing sheet metal portions 183 shown in FIG. 22 are formed on the base sheet metal 107 at regular intervals along the circumferential direction.
  • the camera fixing sheet metal portion 183 has a dharma hole 185 and is disposed above the camera mounting space 115.
  • an engagement pin (not shown) having a large diameter head (not shown) to be engaged with the daruma hole 185 of the camera fixing sheet metal portion 183 is protruded.
  • the indoor omnidirectional camera 167 to which the indoor camera adapter 173 is attached is inserted into the camera mounting space 115 and rotated so that the engagement pin engages with the dharma hole 185 and the fall is restricted and supported. Ru.
  • the indoor omnidirectional camera 167 is locked to the main housing 101 or the like of the microphone array 20 by a camera rotation restriction screw (not shown).
  • the indoor omnidirectional camera 167 is locked, the inner peripheral wall of the main housing 101 interferes with the peripheral elastic claws 177, and the release of the locking of the camera fixing sheet metal portion 183 is restricted.
  • a bayonet plate 187 whose free end is a tip end is provided.
  • an adapter rotation restricting claw 189 projecting radially inward is formed.
  • the adapter rotation restricting claw 189 engages with a bayonet engagement groove 191 formed in the camera housing 181.
  • the other structure is the same as that of the indoor camera adapter 173.
  • a tool insertion groove 193 is formed in the flange 175 of the outdoor camera adapter 171.
  • FIG. 24 is an exploded perspective view of the housing structure of the microphone array 20 to which the lid 195 is attached.
  • the microphone array 20 and the omnidirectional camera may be integrally attached and used as shown in FIG. 7A, for example, but may be separately attached as shown in FIG. 9A, for example. It may be used.
  • the camera mounting space 115 is closed by a lid 195 shown in FIG.
  • the lid 195 is integrally formed of, for example, a resin.
  • the lid 195 is integrally combined by a locking structure with a metal lid plate 197 or the like.
  • the lid 195 disperses external force (impact force) to the lid sheet 197 by being combined with the lid sheet metal 197.
  • the lid 195 suppresses large deformation of the lid 195 itself, thereby preventing cracking and the like.
  • the lid 195 is combined with the lid sheet metal 197 and inserted into the camera attachment space 115, and the lid sheet metal 197 is supported by engagement with the camera fixing sheet metal portion 183 for fixing the omnidirectional camera. In this state, the lid 195 is rotationally fixed to the camera fixing sheet metal portion 183 by the lid rotation locking screw 199.
  • FIG. 25 is an exploded perspective view of the housing structure of the microphone array 20 mounted on the ceiling using the mounting bracket 201.
  • FIG. 26A is a side view of the base metal plate side fixing pin 205 before it is inserted into the base metal plate fixing hole 203.
  • FIG. 26B is a side view of the base metal plate side fixing pin 205 inserted into the base plate metal fixing hole 203.
  • FIG. 26C is a plan view of the base metal plate side fixing pin 205 inserted into the base plate metal fixing hole 203.
  • FIG. 26D is a side view of the base metal plate side fixing pin 205 moved to the small diameter hole 207 of the base metal plate fixing hole 203.
  • FIG. 26E is a plan view of the base metal plate side fixing pin 205 moved to the small diameter hole 207 of the base metal plate fixing hole 203.
  • the impact resistant housing 109 (see FIG. 12) is attached to a ceiling surface (not shown) as an example of the installation surface using the mounting bracket 201. That is, the mounting bracket 201 is fixed to the ceiling surface, and the shock resistant housing 109 having a housing structure is mounted to the mounting bracket 201.
  • the mounting bracket 201 as an example of the mounting tool has a circular bracket base, as shown in FIG.
  • the fixture is not limited to the metal fitting 201, and the material of the fixture may be, for example, ceramic or synthetic resin (for example, plastic or elastomer).
  • a plurality of (for example, three) base plate fixing holes 203 are formed in the fitting base.
  • the base sheet metal fixing hole 203 is formed in a dharma shape or a hetma shape in which the small diameter hole 207 and the large diameter hole 209 are connected.
  • a base sheet metal side fixing pin 205 is provided in a protruding manner corresponding to the base sheet metal fixing hole 203.
  • the base-plate-side fixing pin 205 has a large-diameter pin head 211 at the protruding tip.
  • the large diameter pin head portion 211 can be inserted into the large diameter hole 209, and the small diameter hole 207 can be restricted and locked.
  • the mounting bracket 201 is fixed at a predetermined position on the ceiling surface by a ceiling fixing screw (not shown).
  • the impact resistant housing 109 is concentrically aligned with the mounting bracket 201 fixed to the ceiling surface.
  • the large diameter pin head 211 of the base metal plate side fixing pin 205 is inserted into the large diameter hole 209 of the base metal plate fixing hole 203 (FIG. 26 (B) and FIG. 26 (C)).
  • the omnidirectional camera is directly attached to the impact resistant housing 109 fixed to the ceiling surface by the mounting bracket 201.
  • the housing structure of the microphone array 20 can improve the positional accuracy of the ECM 131 and the omnidirectional camera.
  • FIG. 27 is a cross-sectional view of the housing structure of the microphone array 20 in which the taper 223 is provided in the recess 213 for ECM.
  • the inner peripheral surface of the ECM concave portion 213 is a taper 223 whose diameter is reduced toward the ECM 131.
  • the taper 223 has a minimum diameter substantially equal to the outer diameter of the circular convex portion of the shock absorbing material 217 into which the ECM 131 is inserted, and the maximum diameter substantially matches the microphone laying hole 113 of the annular bottom portion 111.
  • the ECM recess 213 in which the taper 223 is formed raises the resonance point of the air column.
  • the reflected wave of the inner peripheral surface of the recess 213 for ECM does not go to the ECM 131. Furthermore, the sound waves from the lateral direction of the case reach the ECM 131 without any disturbance. As a result, the usable sound range is expanded, and the acoustic characteristic at the time of sound collection of the microphone array 20 is improved. Further, a non-woven fabric 221 for reducing wind noise is sandwiched between the punching metal cover 103 and the annular bottom portion 111.
  • FIG. 28 is a cross-sectional view of the housing structure of the microphone array 20 subjected to wind protection.
  • a plurality of ECM recesses 213 are formed in the microphone housing 129 in accordance with the ECM 131.
  • the ECM recess 213 is formed, for example, in a circular shape, and a through hole 215 for exposing the ECM 131 is formed at the center.
  • a buffer material 217 such as rubber is wound around the outer periphery and attached to the microphone housing 129, and the tip of the ECM 131 is inserted into the through hole 215.
  • the ECM concave portion 213 is disposed concentrically with the microphone laying hole 113 formed in the annular bottom portion 111.
  • the ECM concave portion 213 can be filled with a sound absorbing material 219 for wind protection.
  • the surface of the sound absorbing material 219 is covered by the non-woven fabric 221.
  • the non-woven fabric 221 is sandwiched between the punching metal cover 103 and the annular bottom portion 111.
  • FIG. 29A is a cross-sectional view of the housing structure of the microphone array 20 showing the relationship between the inner diameter and the depth of the ECM recessed portion 213.
  • FIG. 29B is a cross-sectional view of the housing structure of the microphone array 20 in which the inner wall of the ECM recessed portion 213 is the inclined wall 225.
  • FIG. 29C is a cross-sectional view of the housing structure of the microphone array 20 in which the inner peripheral corner portion of the ECM concave portion 213 is the R portion 227.
  • the diameter D and the depth H of the ECM concave portion 213 preferably have a predetermined relationship. For example, by satisfying the relationship of H / D ⁇ 1/10, the peak is suppressed in the vicinity of the resonance frequency of the recess 213 for ECM, and thus the acoustic performance is not adversely affected.
  • the ECM recess 213 may be formed by a flat recess bottom surface 229 and a tapered inclined wall 225.
  • the resonance frequency of the ECM concave portion 213 can be made higher than the use frequency band, and the reflected wave from the inner peripheral surface of the ECM concave portion 213 to the ECM 131 can be reduced.
  • the ECM concave portion 213 may have an inner peripheral corner portion as the R portion 227. Also by this, the resonance frequency of the ECM concave portion 213 can be made higher than the use frequency band, and the reflected wave from the inner peripheral surface of the ECM concave portion 213 to the ECM 131 can be reduced.
  • FIG. 30A is an explanatory view showing an iso-pressure surface of the ECM concave portion 213 in which the taper 223 is not formed.
  • FIG. 30 (B) is an explanatory view showing an iso-pressure surface of the ECM concave portion 213 in which the taper 223 is formed.
  • the sound in the vicinity of the ECM 131 can be simulated, for example, by analyzing the sound traveling through the space by the wave equation by the finite element method.
  • the distance between the equal pressure surfaces is different between the housing surface 231 and the ECM unit 233.
  • the recess 223 for ECM is provided with the taper 223, as shown in FIG. 30 (B)
  • the intervals of the equal pressure surfaces are the same on the case surface 231 and the ECM part 233.
  • the metal main plate 101 made of resin and the metal main metal plate 105 having a bottomed cylindrical shape are used in the main housing 101 made of resin formed in a bottomed cylindrical shape. 107 is fixed.
  • the contact stopping portion 137 is erected on the base sheet metal 107 side.
  • a punching metal cover 103 made of metal is fixed to the main housing 101 on the opposite side of the microphone sheet metal 105 with the main housing 101 interposed therebetween.
  • impact energy from the outside is absorbed by deforming the main housing 101 made of resin. Impact energy greater than the breaking strength of the main housing 101 is absorbed by deforming the metal microphone sheet metal 105. Furthermore, impact energy that causes the microphone sheet metal 105 to be plastically deformed to a predetermined amount or more is applied to the base sheet metal 107 via the contact stop 137 and finally escapes to a building frame or the like to which the base sheet metal 107 is attached.
  • the punching metal cover 103 made of separate members, the main housing 101, the microphone sheet metal 105, and the base sheet metal 107 are integrally fixed and assembled. . For this reason, the impact energy from the outside is absorbed and reduced also by the gap 149 between these members and friction due to rubbing.
  • the microphone substrate 127 is sandwiched between the punching metal cover 103 and the microphone sheet metal 105.
  • the main board 139 and the power supply board 141 are sandwiched between the microphone sheet metal 105 and the base sheet metal 107. That is, the microphone sheet metal 105 is electromagnetically shielded by the conductive outer shell formed by the punching metal cover 103 made of metal and the microphone sheet metal 105 made of metal.
  • the main substrate 139 and the power supply substrate 141 are electromagnetically shielded by the conductive outer shell formed by the metallic microphone sheet metal 105 and the metallic base sheet metal 107.
  • the microphone housing 129 sandwiched between the resin main housing 101 and the metal microphone sheet metal 105 is made of a resin material.
  • a plurality of microphones are fixed to the microphone housing 129.
  • the microphone fixed to the microphone housing 129 is opened to the outside through the microphone laying hole 113 opened in the annular bottom portion 111 of the main housing 101.
  • the microphone laying hole 113 is covered by a punching metal cover 103 covering the annular bottom portion 111.
  • the punching metal cover 103 is disposed on the side facing the ground.
  • An impact such as an impact applied to the impact resistant housing 109 from the ground side is first applied to the punching metal cover 103.
  • the metal punching metal cover 103 is plastically deformed by an impact exceeding the elastic limit to absorb impact energy.
  • the impact energy not absorbed by the plastic deformation of the punching metal cover 103 is applied to the annular bottom 111 of the main housing 101.
  • the impact energy deforms the annular bottom portion 111 and is applied to the microphone sheet metal 105 and the base sheet metal 107. Since the microphone housing 129 is fixed to the microphone sheet metal, large impact energy is not applied.
  • the main casing 101 causes whitening or cracking, and absorbs the impact energy.
  • the main housing 101 is whitened or cracked, but is restored to its original shape with the whitening or crack unless the whole is completely destroyed. That is, the main housing 101 does not greatly affect the acoustic characteristics of the microphone even if whitening or cracking occurs.
  • the plastic deformation of the punching metal cover 103 also has a high aperture ratio, the deformation does not affect the acoustic characteristics of the microphone. For this reason, it resists the impact from the outside and the acoustic characteristic of a microphone does not deteriorate easily.
  • the main housing 101 is made of aluminum, plastic deformation is likely to occur due to an impact from the punching metal cover 103. In particular, when the shape around the microphone plastically deforms, the acoustic characteristics deteriorate. Therefore, according to the housing structure of the microphone array 20 of each embodiment described above, deterioration of acoustic characteristics due to such plastic deformation is suppressed.
  • the microphone sheet metal 105 is disposed inside the main case 101.
  • the fitting portion 143 stands up from the microphone sheet metal 105.
  • the fitting portion 143 is disposed inside the main casing outer peripheral wall 117 with a gap 149.
  • the fitting portion 143 has a pair of sandwiching pieces which are separated in the radial direction (the thickness direction of the main housing outer peripheral wall 117).
  • the base sheet metal outer peripheral wall 135 of the base sheet metal 107 is inserted and fitted (fitted) between the pair of holding pieces of the fitting portion 143.
  • the side portions of the impact resistant case 109 are the inner side in the order of the main case outer peripheral wall 117, the gap 149, the outer clamping piece 145, the base sheet metal peripheral wall 135, and the inner clamping piece 147 from the outside. It is made up of
  • Impact energy such as impact applied to the impact resistant housing 109 from the outside of the side portion is first applied to the main housing outer peripheral wall 117.
  • the main housing outer peripheral wall 117 elastically deforms between the gaps 149 to absorb impact energy.
  • Impact energy above the elastic limit is applied to the fitting portion 143.
  • the impact energy applied to the fitting portion 143 is absorbed by elastically deforming the outer clamping piece 145, the base sheet metal outer peripheral wall 135, and the inner clamping piece 147.
  • the impact energy applied to the fitting portion 143 is effectively absorbed and reduced also by the friction between the outer holding piece 145 and the base sheet metal outer peripheral wall 135, and the base sheet metal outer peripheral wall 135 and the inner holding piece 147.
  • the operation of the audio processing system in the case where one designated part is designated by the user has been described.
  • the operation of the audio processing system in the case where a plurality of (for example, two) different designated portions are designated by the user in the video data similarly displayed on the displays 63 and 73 will be described.
  • the system configuration of the speech processing system of the present embodiment is the same as the system configuration of the speech processing system 5A shown in FIG. 1A, and therefore, the system will be described with reference to the reference numerals of the respective parts of the speech processing system 5A.
  • the audio processing system properly distinguishes between the two designated parts when the user designates two designated parts in the video data displayed on the displays 63 and 73, for example.
  • different identification shapes are displayed around each designated place for each designated place.
  • the voice processing system uses the voice data of the voice collected by the microphone array 20 to form directivity in the direction from the microphone array 20 toward the voice position corresponding to each designated location, The voice is output according to a method defined in advance in association with each identification shape.
  • FIG. 8 is a schematic view showing an example of usage of the speech processing system 5A of the fourth embodiment.
  • FIG. 8A is a view showing a state in which, for example, one camera 10, one microphone array 20, and a speaker 82 are installed on the ceiling 85 of an indoor hall.
  • FIG. 8B is an explanatory diagram of an operation outline of the audio processing system 5A when a plurality of designated parts are designated in the video data displayed on the display 63.
  • FIG. 8A two persons 91a and 92a stand on the floor 87 of the hall and have a conversation.
  • a speaker 82 is placed in contact with the floor 87 at a position slightly away from the two persons 91a and 92a, and music flows from the speaker 82.
  • the camera 10 captures images of persons 91 a and 92 a around points (places) to be monitored which are set in advance in the camera 10.
  • the microphone array 20 picks up the sound of the entire hole.
  • Video data captured by the camera 10 is displayed on the screen 68 of the display 63. Further, from the speaker 65, the conversation in the two persons 91 and 92 or the music in the hall is output as an audio.
  • the touch points 63a1 and 63a2 are a plurality of designated places designated by the user.
  • the signal processing unit 50 uses the voice collected by the microphone array 20, that is, each voice data collected by the microphones 22, from the position of each microphone 22 of the microphone array 20 to the touch point 63a1, designated by the user.
  • Each voice data in which directivity is formed in each directivity direction (direction indicated by the symbols e1 and e2 shown in FIG. 8A) directed to each voice position corresponding to 63a2 is generated and synthesized.
  • the signal processing unit 50 goes from the position of each microphone 22 of the microphone array 20 to each sound position corresponding to the touch points 63a1 and 63a2 specified by the user, using each sound data collected by each microphone 22.
  • the voice data in which the voice (volume level) of each pointing direction is emphasized (amplified) is generated and synthesized.
  • the playback unit 60 synchronizes the audio data synthesized by the signal processing unit 50 with the video data captured by the camera 10 and causes the speaker 65 to output audio.
  • the audio processing system displays, in the video data displayed on the display 63, different identification shapes for each designated part around each designated part.
  • An example of display on the screen and an example of voice output according to a method defined in advance in association with each identification shape will be described in detail with reference to FIGS. 31 to 40.
  • the description will be given on the assumption that the audio processing system 5D in which the omnidirectional camera 10E and the microphone array 20C are integrated as one unit (FIG.
  • a plurality of (for example, two) speakers 65L and 65R are provided in the audio processing apparatus 40 or the PC 70).
  • FIG. 31A is an explanatory diagram of a usage example of the speech processing system 5D of the fourth embodiment.
  • FIG. 31 (B) shows an example of a first identification shape 91M displayed around the first designated portion, and an example of a second identification shape 92M displayed around the second designated portion; A state in which a voice in a first pointing direction toward a first voice position corresponding to a first designated location specified by a first identification shape 91M is emphasized and output from a first speaker 65L; It is a figure which shows a mode that the audio
  • FIG. 31A for example, a donut shaped microphone array 20C, an omnidirectional camera 10E integrated with the microphone array 20C, and a speaker 83 are installed on a ceiling 85 of an indoor hole.
  • four persons 91a, 92a, 93a, 94a stand on the floor 87 of the hall and make a conversation, more specifically, the persons 91a, 92a are making a conversation, People 93a and 94a are in conversation.
  • the speaker 82 is placed in contact with the floor 87, and music flows from the speaker 82.
  • the omnidirectional camera 10E captures an image of the persons 91a, 92a, 93a, 94a and the speaker 82 present in a predetermined viewing angle. Furthermore, the microphone array 20C picks up the sound of the entire hole. On the screen 68 of the display 63, video data captured by the omnidirectional camera 10E is displayed.
  • the first designation method is, for example, a method of designating a designated portion by a left click operation and a right click operation using a mouse.
  • the first audio output method is a simple stereo 2ch (channel) output method in which one audio data of a designated part is audio-outputted from one speaker and the other audio data of the designated part is audio-outputted from the other speaker.
  • the user further operates the vicinity of the head of the person 92a near the head of the person 91a displayed on the screen 68 of the display 63 (see FIG. 31B) by left-clicking the operation unit 55 (for example, a mouse). It is assumed that designation is continuously made by right-clicking operation of 55 (for example, a mouse).
  • the portions designated by the left click operation and the right click operation are a plurality of designated portions designated by the user.
  • the signal processing unit 50 causes the identification shape different for each designated place to be displayed around each designated place in order to properly distinguish the designated places.
  • the signal processing unit 50 displays an identification shape 91M for visually clearly indicating that the person 91a is designated, around the person 91a designated by the left click operation, similarly, right An identification shape 92M for visually clearly indicating that the person 92a is designated is displayed around the person 92a designated by the click operation.
  • the identification shapes 91M and 92M are, for example, rectangles of green and red, respectively, but the color and shape are not limited to green, red and rectangles.
  • the signal processing unit 50 uses the voice data of the voice collected by the microphone array 20C to direct each voice from the installation position of the microphone array 20C to each voice position corresponding to two designated places designated by the user.
  • Each voice data in which directivity is formed in the direction (direction indicated by reference signs e1 and e2 shown in FIG. 31A) is generated.
  • the playback unit 60 is audio data in which the audio in the first directivity direction (see the code e1 shown in FIG. 31A) specified by the identification shape 91M is synchronized with the video data captured by the omnidirectional camera 10E. Is output from the speaker 65L, and audio data in which the audio in the second directivity direction (see the code e2 shown in FIG.
  • the adjustment operation box OPB is displayed in response to the click operation to the outside of the display area of the video data displayed on the display 63.
  • FIG. For example, when the video data shown in FIG. 31B is displayed on the display 63, the user moves the cursor MPT out of the display area of the video data by the operation unit 55 (for example, a mouse) and then clicks it. (For example, right-click operation).
  • the signal processing unit 50 causes the display 63 to display an adjustment operation box OPB for adjusting a parameter (for example, a volume level) of the sound output from the speaker 65L or 65R in accordance with the click operation of the user.
  • the adjustment operation box OPB is described as being used to adjust, for example, the volume level, but in addition, adjustment of the setting of the equalizer at the time of audio output, and switching of directional audio and non-directional audio are also described. It may be used for adjustment.
  • the conversational voice of the person 91a voiced from the speaker 65L becomes louder. Be done.
  • the conversation voice of the person 92a voiced from the speaker 65R becomes smaller and the voice is voiced. It is output.
  • FIG. 33A is an explanatory diagram of a use example of the speech processing system 5D according to the fourth embodiment.
  • FIG. 33A is an explanatory diagram of a use example of the speech processing system 5D according to the fourth embodiment.
  • 33B shows an example of displaying a first identification shape 91N displayed around the first designated portion and an example of a second identification shape 92N displayed around the second designated portion; A state in which a voice in a first directivity direction toward a first voice position corresponding to a first designated location specified by the first identification shape 91N is emphasized and output from the first speaker 65L; It is a figure which shows a mode that the audio
  • FIG. 33 (A) is the same as FIG. 31 (A), so the description of FIG. 33 (A) is omitted. Furthermore, although the colors of the identification shapes 91M and 92M are different in FIG. 31B and both are solid lines, the colors of the identification shapes 91N and 92N are the same in FIG. Since there is no difference between FIG. 33 (B) and FIG. 31 (B) except that the identification shape 91N of 1 is a solid line and the other (the second identification shape 92N) is a dotted line, FIG. I will also omit the explanation of.
  • FIG. 34 shows video data captured by the omnidirectional camera 10E for each click operation of the video data displayed on the display 63 outside the display area while the video data shown in FIG. 31 (B) is displayed. It is a figure which shows a mode that 1 and the operation box OPB for adjustment are switched and displayed. For example, when the video data shown in FIG. 31B is displayed on the display 63, the user moves the cursor MPT out of the display area of the video data by the operation unit 55 (for example, a mouse) and then clicks it. (For example, right-click operation). The signal processing unit 50 switches the screen of the video data captured by the omnidirectional camera 10E to the adjustment operation box OPB and causes the display 63 to display the screen according to the user's click operation.
  • the operation unit 55 for example, a mouse
  • the adjustment operation box OPB is displayed on the display 63
  • the user moves the cursor MPT out of the display area of the video data by the operation unit 55 (for example, a mouse) and then clicks the operation (for example, right Click operation).
  • the signal processing unit 50 switches the adjustment operation box OPB to the screen of the video data captured by the omnidirectional camera 10E and causes the display 63 to display the adjustment operation box OPB in response to the user's click operation.
  • switching between the adjustment operation box OPB and the screen of video data captured by the omnidirectional camera 10E is performed by a click operation outside the display area of the video data of the cursor MPT, it is limited to the click operation It may be executed by a predetermined input operation.
  • the predetermined input operation is, for example, an operation in which the user simultaneously presses a plurality of specific keys with different keyboards.
  • the state indication box IND is displayed in response to the click operation to the outside of the display area of the video data displayed on the display 63.
  • FIG. 35 For example, when the video data shown in FIG. 31B is displayed on the display 63, the user moves the cursor MPT out of the display area of the video data by the operation unit 55 (for example, a mouse) and then clicks it. (For example, right-click operation).
  • the signal processing unit 50 displays, on the display 63, a state indication box IND for indicating the state of the parameter (for example, the volume level) of the audio output from the speaker 65L or 65R in response to the user's click operation. Display.
  • the user can not operate the state indication box IND, when one of the identification shapes displayed on the display 63 is designated by the user, the voice of the person corresponding to the designated identification shape is displayed.
  • the content of the volume level is visually specified by the status indication box IND.
  • the user presses the specific key of another operation unit (for example, a keyboard) in a state where the first identification shape 91M is selected.
  • the result of increasing or decreasing the volume level of the conversational voice of the person 91a being audibly output from 65L or the process leading to that result is visually indicated in the state indication box IND.
  • the state indication box IND is described to indicate, for example, the state of the volume level, but in addition, the setting contents of the equalizer at the time of audio output, and the state of switching between directional voice and non-directional voice It may be used for marking of. In addition, the state indication box IND may be always displayed on the display 63.
  • the second designation method is a method of designating a designated portion by, for example, a pressing operation of a numeric key of a keyboard and a left click operation of a mouse.
  • the second audio output method is a synthetic monaural 2ch (channel) output method in which audio data of all designated parts is output from both speakers as audio.
  • FIG. 36A is an explanatory diagram of a use example of the speech processing system 5D according to the fourth embodiment.
  • FIG. 36 (B) shows the first identification shape 91K displayed around the first designated portion, the second identification shape 92K displayed around the second designated portion, the periphery of the third designated portion Of displaying the third identification shape 93K displayed on the screen, and an example of the fourth identification shape 94K displayed around the fourth designated portion, and the first specification specified by the first identification shape 91K
  • the voice data emphasizing the voice in the first pointing direction toward the first voice position corresponding to the location, and the second voice position corresponding to the second designated location specified by the second identification shape 92K Voice data in which the voice in the second pointing direction is emphasized, and voice in which the voice in the third pointing direction toward the third voice position corresponding to the third designated portion specified by the third identification shape 93K is emphasized
  • Data and the first and second speakers 65L Is a diagram showing how the output from the 5R. Note that FIG. 36 (A)
  • the user simultaneously operates the operation unit 55 (for example, pressing of the number “1” key of the keyboard and left click of the mouse) near the head of the person 91 a displayed on the screen 68 of the display 63 (see FIG. 36B).
  • Simultaneous operation of the operation unit 55 for example, pressing the number "2" key of the keyboard and left click of the mouse
  • operation of the vicinity of the head of the person 93a It is assumed that the simultaneous operation of pressing and the left click of the mouse, and the vicinity of the head of the person 94a are successively specified by the simultaneous operation of the operation unit 55 (for example, pressing of the number 4 key on the keyboard and left clicking on the mouse).
  • Each location designated by each operation of number key depression and left click becomes a plurality of designated locations designated by the user.
  • the signal processing unit 50 causes the identification shape different for each designated place to be displayed around each designated place in order to properly distinguish the designated places.
  • the signal processing unit 50 is an identification shape for visually clearly indicating that the person 91a is designated around the person 91a designated by the pressing operation of the numeral "1" key and the left click operation.
  • 91K is displayed
  • an identification shape 92K for visually clearly indicating that the person 92a is designated is displayed around the person 92a designated by the pressing operation of the numeral "2" key and the left click operation
  • the numeral An identification shape 93K for visually clearly indicating that the person 93a is designated is displayed around the person 93a designated by the pressing operation of the "3" key and the left click operation
  • An identification shape 94K for visually clearly indicating that the person 94a is designated is displayed around the person 94a designated by the operation and the left click operation.
  • the identification shapes 91K, 92K, 93K, and 94K are, for example, black rectangles, but the color and shape are not limited to black and rectangles.
  • the signal processing unit 50 uses the voice data of the voice collected by the microphone array 20C to direct each voice from the installation position of the microphone array 20C to each voice position corresponding to the four designated places designated by the user.
  • Each voice data having directivity formed in the direction is generated and synthesized. Audio data in which the audio of the first directivity direction (see the code e1 shown in FIG. 36A) specified by the identification shape 91K is emphasized in synchronization with the video data captured by the omnidirectional camera 10E. And voice data emphasizing the voice in the second pointing direction (see symbol e2 shown in FIG.
  • the speaker 65L and 65R output voice from the speakers 65L and 65R as voice data synthesized with voice data in which the voice of the code e3 shown in (A) is emphasized. Therefore, the conversational voice ("Hello") of the person 91a, the conversational voice ("Hi!) Of the person 92a, and the conversational voice ("Good morning!) Of the person 93a are emphasized and output from the speakers 65L and 65R. . Note that FIG.
  • 36A shows a state in which the person 94a does not have a voice, so the conversational voice of the person 94a is emphasized and not output from the speakers 65L and 65R, for example, the person 94a is a voice.
  • the voice of the person 94a is also output from the speakers 65L and 65R.
  • FIG. 37 is a diagram showing how the adjustment operation box OPB is displayed in response to the simultaneous pressing operation of a plurality of specific keys of the keyboard in the state where the video data shown in FIG. 36 (B) is displayed. .
  • the operation unit 55 for example, the "Shift" key and the number "1" key on the keyboard.
  • the signal processing unit 50 causes the display 63 to display an adjustment operation box OPB for adjusting the volume level of the audio output from the speaker 65L or 65R in response to the simultaneous pressing operation by the user.
  • the adjustment operation box OPB is displayed in response to the click operation to the outside of the display area of the video data displayed on the display 63.
  • FIG. 39 For example, when the video data shown in FIG. 36B is displayed on the display 63, the user moves the cursor MPT out of the display area of the video data by the operation unit 55 (for example, a mouse) and then clicks it. (For example, right-click operation).
  • the signal processing unit 50 causes the display 63 to display an adjustment operation box OPB for adjusting the volume level of the audio output from the speaker 65L or 65R in accordance with the click operation of the user.
  • the third specification method is, for example, a method of specifying a designated portion by a drawing operation of a different identification shape by the user's finger or a stylus pen on a display 63 provided with a touch panel or a touch device different from the touch panel (eg touch pad) It is.
  • the third voice output method is voice output of voice data of one or more designated parts designated by the user from one speaker, and similarly voice data of one or more designated parts designated by the user. This is a synthetic stereo 2ch (channel) output method in which sound is output from the other speaker.
  • the designated part is designated by the user's drawing operation on the display 63 provided with the touch panel.
  • FIG. 39A is an explanatory diagram of a usage example of the speech processing system 5D of the fourth embodiment.
  • FIG. 39B shows the first identification shape 91L displayed around the first designated portion, the second identification shape 92L displayed around the second designated portion, the periphery of the third designated portion Of displaying the third identification shape 93L displayed on the screen and an example of the fourth identification shape 94L displayed around the fourth designated portion, and the first specification specified by the first identification shape 91L
  • the voice data emphasizing the voice in the first pointing direction toward the first voice position corresponding to the location, and the second voice position corresponding to the second designated location specified by the second identification shape 92L
  • a state in which voice data in which the voice in the second pointing direction is emphasized is synthesized and output from the first speaker 65L, and a third voice corresponding to a third designated portion specified by the third identification shape 93L Emphasized the voice in the third pointing direction toward the position
  • It is a diagram showing a state of outputting the voice data from the
  • the user for example, displays a circular shape by touching and dragging near the head of the person 91a displayed on the screen 68 of the display 63 (see FIG. 40B), and a rectangular shape by touching and dragging near the head of the person 92a.
  • the drawing operation, the triangle-like drawing operation by the touch and drag near the head of the person 93a, and the hexagon-like drawing operation by the touch and drag near the head of the person 94a are continuously specified.
  • Each location designated by the drawing operation of each shape by touch and drag becomes a plurality of designated locations designated by the user.
  • the signal processing unit 50 uses a shape drawn by a different drawing operation for each designated part as an identification shape in order to distinguish each designated part appropriately. Display.
  • the signal processing unit 50 displays an identification shape 91L for visually clearly indicating that the person 91a is designated, around the person 91a designated by the circular drawing operation, and forms a rectangular shape.
  • An identification shape 92L for visually clearly indicating that the person 92a has been designated is displayed around the person 92a designated by the drawing operation, and around the person 93a designated by the triangle-like drawing operation,
  • the identification shape 93L for visually clarifying that the person 93a is specified is displayed, and it is visually specified that the person 94a is specified around the person 94a specified by the hexagonal drawing operation.
  • the identification shape 94L is displayed.
  • the identification shapes 91K, 92K, 93K, and 94K are merely examples and are not limited to the respective shapes, and in FIG. 39B, the identification shapes are illustrated by dotted lines, but are not limited to dotted lines. It may be done.
  • the signal processing unit 50 uses the voice data of the voice collected by the microphone array 20C to direct each voice from the installation position of the microphone array 20C to each voice position corresponding to the four designated places designated by the user.
  • Each voice data having directivity formed in the direction is generated and synthesized.
  • the reproducing unit 60 groups the identification shapes 91L and 92L drawn in the display area on the left side from the center of the display 63 as one audio output group, and synchronizes with the video data captured by the omnidirectional camera 10E
  • the voice data emphasizing the voice in the first pointing direction (see reference numeral e1 shown in FIG.
  • the speaker 65L outputs voice data from the speaker 65L that is synthesized with voice data in which the voice of the code e2 shown) is emphasized. Furthermore, the reproducing unit 60 groups, for example, the identification shapes 93L drawn in the display area on the right side from the center of the display 63 as one audio output group, and synchronizes with the video data captured by the omnidirectional camera 10E. Audio data in which the audio in the third directivity direction (see e3 shown in FIG. 39A) specified by 93L is emphasized is output as audio from the speaker 65R.
  • FIG. 36A shows a state in which the person 94a does not have a voice, so the conversational voice of the person 94a is emphasized and not output from the speakers 65L and 65R, for example, the person 94a is a voice.
  • the voice of the person 94a is also output from the speakers 65L and 65R.
  • the reproducing unit 60 divides the set of identification shapes displayed in the display area on the left side and the display area on the right side from the center of the display 63 and then forms an audio output group.
  • the user may arbitrarily designate an audio output group.
  • the first identification shape 91L and the third identification shape 93L are designated as one audio output group for audio output from the speaker 65L
  • the second identification shape 92L is audio output from the speaker 65R. It may be designated as one voice output group.
  • the reproduction unit 60 emphasizes the sound in the first pointing direction (see the code e1 shown in FIG.
  • the speaker 65L outputs, from the speaker 65L, voice data obtained by synthesizing the voice data and the voice data in which the voice in the third directivity direction (see the code e3 shown in FIG. 39A) specified by the identification shape 93L is emphasized. . Furthermore, the reproduction unit 60 enhances the sound in the second pointing direction (see the code e2 shown in FIG. 39A) specified by the identification shape 92L in synchronization with the video data captured by the omnidirectional camera 10E. Audio data is output as audio from the speaker 65R.
  • the conversational voice ("Hello") of the person 91a and the conversational voice ("Good morning!) Of the person 93a are emphasized and output from the speaker 65L, and the conversational voice ("Hi!) Of the person 92a is the speaker 65R. It is emphasized and output from voice.
  • FIG. 40 shows the adjustment operation box OPB in response to a touch outside the display area of the video data displayed on the display 63 provided with the touch panel in a state where the video data shown in FIG. 39 (B) is displayed.
  • the signal processing unit 50 causes the display 63 to display an adjustment operation box OPB for adjusting the volume level of the audio output from the speaker 65L or 65R in accordance with the touch of the user.
  • the signal processing unit 50 in the video data Different identification shapes (for example, identification shapes 91L and 92L) are displayed at different designated portions.
  • the audio processing system 5D can distinguish and recognize a plurality of different designated portions designated by the user, and for example, as the identification shape different for each of the designated portions distinguished, A rectangular identification shape 91L is displayed around one of the designated portions, and a circular identification shape 92L is displayed around the other designated portion to visually indicate to the user that a plurality of designated portions have been distinguished and recognized. It can be clearly stated.
  • the audio processing system 5D is provided with, for example, two speakers, and the reproduction unit 60 is arranged in the first pointing direction from the microphone array 20 to the position (first audio position) corresponding to the first designated location.
  • the first voice data in which the voice is emphasized is voice-outputted from the first speaker 65L, and the voice in the second directivity direction directed from the microphone array 20 to the position (second voice position) corresponding to the second designated location is The emphasized second audio data is output as audio from the second speaker 65R.
  • the audio processing system 5D enhances each audio data in which the audio in the directivity direction toward the audio position corresponding to each specified location is emphasized from the microphone array 20 for each specified location. Can be output as audio independently from each of the speakers 65L and 65R.
  • One embodiment of the present invention includes at least one imaging unit for capturing a video, a display unit for displaying video data captured by the imaging unit, and a plurality of microphones, and the microphone is used to collect audio.
  • a sound collection unit, a sound output unit that outputs sound data collected by the sound collection unit, the video data captured by the imaging unit, and the sound data collected by the sound collection unit A recording unit for recording the video data recorded in the recording unit on the display unit, and a reproduction unit for causing the audio output unit to audio-output the audio data recorded in the recording unit;
  • An operation unit that receives specification of one or more designated parts of the video data displayed on the display unit, and the video data specified by the sound collection unit based on the audio data recorded in the recording unit
  • a signal processing unit which generates or synthesizes the audio data that emphasizes the orientation of the sound toward the positions corresponding to one or more specified locations data is voice processing system comprising a.
  • the audio processing system uses each audio data collected by each microphone of the microphone array according to the specification of the predetermined designated portion from the operation unit during reproduction of the video data already recorded.
  • the signal processing unit generates or synthesizes voice data in which directivity is formed in a pointing direction from the microphone array toward a position corresponding to one or more designated places.
  • the audio processing system can emphasize and output the audio data in the video for the specified reproduction time while reproducing the recorded video data and audio data.
  • audio data in which the reproduction unit emphasizes sound in a directional direction from the sound collection unit toward a position corresponding to the one or more designated locations is output to the sound output unit. It is an audio processing system which makes it output.
  • the audio processing system can output, by the signal processing unit, audio data in which directivity is formed in a pointing direction from the microphone array toward a position corresponding to one or more designated places.
  • the imaging unit is an omnidirectional camera
  • the signal processing unit is specified while the image data captured by the omnidirectional camera is displayed on the display unit.
  • the reproducing unit displaying the video data after the image conversion on the display part
  • the audio processing system is configured to cause the sound collection unit to output audio data in which voice in a pointing direction toward a position corresponding to the one or more designated parts is emphasized.
  • the sound processing system performs coordinate system conversion processing for correlating the position of the subject in the video data captured by the omnidirectional camera with the direction of the voice of the person of the subject collected by the microphone array.
  • a process that can be easily performed and in which the reproduction unit synchronously reproduces the video data captured by the camera and the audio data whose directivity is formed in the directivity direction toward the position corresponding to the one or more designated places The load can be reduced.
  • one Embodiment of this invention is an audio processing system by which the said imaging part and the said sound collection part are coaxially arrange
  • the audio processing system is installed so that the omnidirectional camera and the microphone array in the audio processing system have the same central axis, so that the coordinate systems of the omnidirectional camera 10E and the microphone array 20C should be the same. Can.
  • one Embodiment of this invention is an audio processing system by which the said imaging part and the said sound collection part are arrange
  • the signal processing unit is configured to set different identification shapes at each designated place in the video data in accordance with designation of a plurality of different places with respect to the video data displayed on the display unit. It is an audio processing system to be displayed.
  • the signal processing unit displays the different designated places in the video data. Display different identification shapes.
  • the audio processing system can distinguish and recognize a plurality of different designated parts designated by the user in the video data displayed on the display, and one of the identification shapes different for each of the designated designated parts, for example, By displaying a rectangular identification shape around the designated part and displaying a circular identification shape around the other designated part, the user can clearly indicate to the user that a plurality of designated parts have been distinguished and recognized. be able to.
  • the audio output unit includes a first audio output unit and a second audio output unit, and the reproduction unit is connected to the first designated location from the sound collection unit.
  • the first voice output unit causes the first voice output unit to voice-output the first voice data in which the voice in the first pointing direction toward the corresponding position is emphasized, and the first voice data is directed from the sound collection unit to the position corresponding to the second designated location
  • It is a voice processing system which makes the 2nd voice data which emphasized the voice of 2 direction directions emphasized voice-output from the above-mentioned 2nd voice output part.
  • the audio processing system is provided with, for example, two speakers, and the reproduction unit is arranged in the first pointing direction from the microphone array toward the position (first audio position) corresponding to the first designated location.
  • the first voice data in which the voice is emphasized is voice-outputted from the first speaker, and the voice in the second directivity direction directed from the microphone array to the position (second voice position) corresponding to the second designated location is emphasized.
  • the second audio data is output from the second speaker as audio.
  • the audio processing system for example, when two speakers are provided, for each designated location, each voice data emphasizing voice in a pointing direction toward the audio position corresponding to each designated location from the microphone array, Audio can be output independently from each speaker.
  • the audio output unit includes a first audio output unit and a second audio output unit, and the reproduction unit is connected to a plurality of designated portions different from the sound collection unit.
  • the first voice output unit causes the voice output of voice data in which voice data in which voices in different voice pointing directions different from each other toward a corresponding position are enhanced is voice-outputted, and the sound collection unit It is a voice processing system which makes voice data or synthetic voice output the voice data which emphasized the voice of the remaining one or more pointing directions which go to a corresponding position from the above-mentioned 2nd voice output part.
  • the audio processing system is provided with, for example, two speakers, and the reproduction unit is configured to move from the microphone array to the positions (for example, the first and second audio positions) corresponding to a plurality of different designated places.
  • the first speaker outputs voice data in which voice data in which voices in each of the second directional directions are emphasized is synthesized from the first speaker, and further, positions corresponding to one or more remaining designated locations from the microphone array (for example, Voice data emphasizing voice of one or more remaining directional directions toward the third voice position) is voice-outputted from the second speaker.
  • the sound processing system synthesizes each sound data emphasizing sounds of a plurality (for example, two) directional directions from the microphone array and outputs the sound from one of the speakers Further, voice data emphasizing voices in other directional directions can be voice-outputted from the other speaker.
  • one embodiment of the present invention includes one or more of the audio output units, and the reproduction unit generates audio in a plurality of different directional directions toward positions corresponding to different designated locations from the sound collection unit.
  • a voice processing system which causes voice data in which emphasized voice data is synthesized to be voice-outputted from one or more of the voice output units.
  • the audio processing system is provided with, for example, one or more speakers, and the reproduction unit is configured to direct the first direction from the microphone array toward the position (first audio position) corresponding to the first designated location.
  • First voice data in which voice in a direction is emphasized
  • second voice data in which voice in a second pointing direction from the microphone array toward a position (second voice position) corresponding to a second designated position is emphasized
  • Voice data synthesized by combining third voice data emphasizing voice in a third pointing direction heading from the microphone array to a position (third voice position) corresponding to the third designated location, Make audio output from the speaker.
  • the sound processing system synthesizes each sound data emphasizing sounds of a plurality (for example, three) directional directions from the microphone array and outputs the sound from the speakers
  • synthesized voice data can be simultaneously output as voice.
  • the signal processing unit outputs an audio from the audio output unit in response to a predetermined input operation or a designation operation to the outside of a display area of the video data displayed on the display unit.
  • the voice processing system displays the medium for parameter adjustment operation of the voice data.
  • the audio processing system is a speaker by a predetermined input operation (for example, a right click operation of a mouse) or a designation operation of video data displayed on the display outside the display area (for example, a left click operation of a mouse) It is possible to easily display an adjustment operation box that receives an adjustment operation of a parameter (for example, a volume level) of audio data that is audio-outputted from.
  • a predetermined input operation for example, a right click operation of a mouse
  • a designation operation of video data displayed on the display outside the display area for example, a left click operation of a mouse
  • the audio output unit may constantly or in response to a predetermined input operation or a designation operation to the outside of a display area of the video data displayed on the display unit.
  • the audio processing system always or performs a predetermined input operation (for example, a right click operation of a mouse) or an operation for specifying outside the display area of video data displayed on the display (for example, a left click operation for the mouse)
  • a predetermined input operation for example, a right click operation of a mouse
  • an operation for specifying outside the display area of video data displayed on the display for example, a left click operation for the mouse
  • a state indication box as an indicator for indicating the state of parameters (for example, volume level) of audio data being output from the speaker.
  • the audio processing system is configured to: video data captured by the camera for each predetermined input operation or a specification operation (for example, a left click operation of the mouse) outside the display area of the video data displayed on the display; Alternatively, it is possible to easily switch and display an adjustment operation box that receives an adjustment operation of a parameter (for example, a volume level) of audio data that is output as audio from a speaker.
  • a specification operation for example, a left click operation of the mouse
  • the signal processing unit is configured to select the designated portion from the sound collection unit according to a drawing operation of a predetermined shape including a designated portion of the video data displayed on the display unit.
  • a voice processing system that generates or synthesizes voice data emphasizing voice in a pointing direction toward a position corresponding to
  • the audio processing system performs a simple drawing operation (for example, a slide in a state where a touch operation and a touch operation are performed) that draws a predetermined shape (for example, a rectangular shape) centering on a designated portion of video data displayed on a display By the operation), it is possible to generate or synthesize voice data emphasizing voice in a pointing direction from the microphone array toward the position corresponding to the designated part.
  • a simple drawing operation for example, a slide in a state where a touch operation and a touch operation are performed
  • a predetermined shape for example, a rectangular shape
  • the signal processing unit displays the identification shape redesignated from the sound collection unit in response to the redesignation of the identification shape displayed for each of the designated portions.
  • the speech processing system is a speech processing system that generates or synthesizes speech data in which emphasis of speech in a directional direction toward a position corresponding to a designated part is canceled.
  • the voice processing system directs the pointing direction toward the position corresponding to the designated location where the identification shape redesignated from the microphone array is displayed. Can be easily generated or synthesized.
  • At least one imaging unit picks up a video
  • a sound collection unit including a plurality of microphones picks up audio
  • the video data picked up by the imaging unit Displaying on the display unit the steps of displaying on the display unit, recording the video data captured by the imaging unit and the audio data collected by the sound collection unit, and displaying the recorded video data on the display unit; Audio output of the recorded audio data to an audio output unit, receiving designation of one or more designated parts of the video data displayed on the display unit, and based on the recorded audio data
  • Generating voice data emphasizing voice in a pointing direction toward a position corresponding to one or more designated portions of the designated video data from the sound collection unit; Or has a step of combining, the a speech processing method.
  • the audio processing system uses each audio data collected by each microphone of the microphone array according to the specification of the predetermined designated part from the operation unit during reproduction of the video data already recorded.
  • the signal processing unit generates or synthesizes voice data in which directivity is formed in a pointing direction from the microphone array toward a position corresponding to one or more designated places.
  • the audio processing system can emphasize and output the audio data in the video for the specified reproduction time while reproducing the recorded video data and audio data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

 レコーダ45は、使用者から再生したい映像の指定を受け付ける。信号処理部50は、レコーダ45で映像の再生中或いは一時停止中、映像が表示されたディスプレイ63の画面に対し、操作部55を介してユーザから音声強調の1つ以上の指定箇所の指定を受け付けると、音声データを強調処理、即ち、レコーダ45に記録されている音声データを用いて、マイクアレイ20から、指定された指定箇所に対応する位置に向かう方向の音声データを強調する。再生装置60は、強調処理された音声データと映像データとを同期させて再生する。

Description

音声処理システム及び音声処理方法
 本発明は、記録された映像データ及び音声データを再生する音声処理システム及び音声処理方法に関する。
 従来、工場、店舗(例えば小売店、銀行)或いは公共の場(例えば図書館)に設置される監視システムでは、ネットワークを用いて、複数の監視カメラ(例えばパンチルトカメラ、全方位カメラ)を接続することで、監視対象の周囲の映像データ(静止画像及び動画像を含む。以下同様)の高画質化及び広画角化が図られている。
 また、映像だけの監視では得られる情報量がどうしても限界があるため、監視カメラの他にマイクロホンも配置することで、監視対象の周囲の映像データ及び音声データを得るという監視システムも、近年登場している。
 監視対象の周囲の音声データを得る先行技術として、撮像画像を得る撮像部と、音声データを収音する複数のマイクロホン(収音部)とを有し、各マイクロホンが収音した音声データを用いて、クライアントとしてのサウンド再生装置から指定された所定の収音方向に指向性を有する音声データを生成するサウンド処理装置が知られている(例えば特許文献1参照)。
 特許文献1では、サウンド処理装置は、複数の収音部(マイクロホン)が収音した音声データを、ネットワークを介して接続されているクライアント(サウンド再生装置)から予め受けた所定の収音方向の制御命令を基に合成して、同方向に指向性を有する音声データを生成し、合成された音声データをクライアント(サウンド再生装置)に送信する。
日本国特開2000-209689号公報
 特許文献1に示すサウンド処理装置を有人監視システムに適用した場合には、サウンド処理装置は、監視対象の周囲の撮影画像の記録中に、何かしらのアクシデントが発生した時には、収音方向の指定をクライアント(サウンド再生装置)から直ぐに受け、同収音方向に指向性を有する音声データを生成できる。
 しかし、特許文献1に示すサウンド処理装置を例えば無人監視システムに適用する場合において、アクシデントが発生した後に、アクシデントの発生前から記録されていた映像データ及び音声データを再生することでアクシデントに関する情報(例えば音声データ)を得たいとする。この場合では、サウンド処理装置は、アクシデントが発生した場所が予めクライアントから指定を受けた所定の収音方向とは限らないため、アクシデントが発生した場所、即ち所望の収音方向に指向性を有する音声データを得ることが困難となる可能性がある。即ち、記録された映像データ及び音声データからアクシデントに関する有効な情報を得られない可能性が高いという課題がある。
 本発明は、上述した従来の課題を解決するために、撮像された映像データが表示された表示画面の中で指定された1つ以上の指定箇所に対応する位置に向かう指向方向の音声データを強調して出力する音声処理システム及び音声処理方法を提供することを目的とする。
 本発明は、映像を撮像する少なくとも1つの撮像部と、前記撮像部により撮像された映像データを表示する表示部と、複数のマイクロホンを含み、前記マイクロホンを用いて音声を収音する収音部と、前記収音部により収音された音声データを音声出力する音声出力部と、前記撮像部により撮像された前記映像データと、前記収音部により収音された前記音声データとを記録する記録部と、前記記録部に記録された前記映像データを前記表示部に表示させ、前記記録部に記録された前記音声データを前記音声出力部に音声出力させる再生部と、前記表示部に表示された前記映像データの1つ以上の指定箇所の指定を受け付ける操作部と、前記記録部に記録された前記音声データを基に、前記収音部から、指定された前記映像データの1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する信号処理部と、を備える、音声処理システムである。
 また、本発明は、少なくとも1つの撮像部において映像を撮像するステップと、複数のマイクロホンを含む収音部において音声を収音するステップと、前記撮像部により撮像された映像データを表示部に表示させるステップと、前記撮像部により撮像された映像データと前記収音部により収音された音声データとを記録するステップと、記録された前記映像データを前記表示部に表示させ、記録された前記音声データを音声出力部に音声出力させるステップと、前記表示部に表示された前記映像データの1つ以上の指定箇所の指定を受け付けるステップと、記録された前記音声データを基に、前記収音部から、指定された前記映像データの1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成するステップと、を有する、音声処理方法である。
 本発明によれば、撮像された映像データが表示された表示画面の中で指定された1つ以上の指定箇所に対応する位置に向かう指向方向の音声データを強調して出力することができる。
(A)、(B)各実施形態の音声処理システムのシステム構成を示すブロック図 (A)マイクアレイの外観図、(B)第3の実施形態におけるマイクアレイの外観図、(C)マイクアレイとカメラとの取り付け状態とを示す図 マイクアレイを用いた指向性制御処理の原理の説明図 音声処理システムの記録時の動作手順を説明するフローチャート 1つ以上の指定箇所を指定する場合における、音声処理システムの再生時の動作手順を説明するフローチャート 第1の実施形態の音声処理システムの使用形態の一例を示す模式図、(A)例えば屋内のホールの天井に1台のカメラと1台のマイクアレイとが離れた位置に設置された様子を示す図、(B)映像データがディスプレイに表示され、音声データがスピーカにおいて音声出力されている様子を示す図 第2の実施形態の音声処理システムの使用形態の一例を示す模式図、(A)例えば屋内のホールの天井に、2台のカメラと、2台のカメラの中間位置にある1台のマイクアレイと、スピーカとが設置された様子を示す図、(B)カメラ10により撮像された映像データがディスプレイ63に表示され、音声データがスピーカ65において音声出力されている様子を示す図、(C)カメラ10Aにより撮像された映像データがディスプレイ63に表示され、音声データがスピーカ65において音声出力されている様子を示す図 第4の実施形態の音声処理システムの使用形態の一例を示す模式図、(A)例えば屋内のホールの天井に、1台のカメラと、1台のマイクアレイと、スピーカとが設置された様子を示す図、(B)ディスプレイに表示された映像データの中で複数の指定箇所が指定された場合の音声処理システムの動作概要の説明図 音声処理システムの使用形態の一例を示す模式図、(A)例えば屋内のホールの天井に、ドーナツ型形状のマイクアレイと、マイクアレイと一体として組み込まれたカメラと、スピーカとが設置された様子を示す図、(B)カメラ10Eが撮像した映像データにおいて2人の人物91,92が選択される様子を示す図、(C)画像変換後の2人の人物91,92の映像データがディスプレイに表示され、人物91,92の会話の音声データがスピーカ65において音声出力されている様子を示す図、(D)カメラ10Eが撮像した映像データにおいて2人の人物93,94が選択される様子を示す図、(E)画像変換後の2人の人物93,94の映像データがディスプレイに表示され、人物93,94の会話の音声データがスピーカ65において音声出力されている様子を示す図 (A)、(B)、(C)他のマイクアレイ20D、20E、20Fの外観図 複数の指定箇所が指定された場合のディスプレイ63及びスピーカ65の動作を示す模式図 各実施形態のマイクアレイの筐体構造の分解斜視図 (A)図12に示すマイクアレイの筐体構造の平面図、(B)図13(A)のA-A断面図 図13(B)の点線範囲の要部拡大図 (A)パンチングメタルカバーをメイン筐体に固定する様子を示す斜視図、(B)パンチングメタルカバーをメイン筐体に固定する様子を示す断面図 マイク取付構造の模式図 マイク基板の平面図 (A)複数のマイク回路に1つのリップル除去回路が設けられるマイク基板回路の図、(B)複数のマイク回路のそれぞれにリップル除去回路が設けられるマイク基板回路の図 (A)カメラアダプタが取り付けられずに全方位カメラが取り付けられたマイクアレイの筐体構造の斜視図、(B)屋外用全方位カメラがカメラアダプタと共に取り付けられたマイクアレイの筐体構造の斜視図 屋内用全方位カメラが取り付けられるマイクアレイの筐体構造の分解斜視図 屋外用全方位カメラが取り付けられるマイクアレイの筐体構造の分解斜視図 (A)屋外用全方位カメラが取り付けられたマイクアレイの筐体構造の側面図、(B)図22(A)のB-B断面図 図22の点線範囲の要部拡大図 蓋の取り付けられるマイクアレイの筐体構造の分解斜視図 取付金具を用いて天井に取り付けられる筐体構造の分解斜視図 (A)ベース板金用固定穴に差し込まれる前のベース板金側固定ピンの側面図、(B)ベース板金用固定穴に差し込まれたベース板金側固定ピンの側面図、(C)ベース板金用固定穴に差し込まれたベース板金側固定ピンの平面図、(D)ベース板金用固定穴の小径穴に移動したベース板金側固定ピンの側面図、(E)ベース板金用固定穴の小径穴に移動したベース板金側固定ピンの平面図 ECM用凹部にテーパが設けられたマイクアレイの筐体構造の断面図 風対策の施されたマイクアレイの筐体構造の断面図 (A)ECM用凹部の内径と深さの関係を表したマイクアレイの筐体構造の断面図、(B)ECM用凹部の内壁が傾斜壁となったマイクアレイの筐体構造の断面図、(C)ECM用凹部の内周隅部がR部となったマイクアレイの筐体構造の断面図 (A)テーパを形成しないECM用凹部の等圧面を表した説明図、(B)テーパを形成したECM用凹部の等圧面を表した説明図 (A)第4の実施形態の音声処理システムの使用例の説明図、(B)第1の指定箇所の周囲に表示される第1の識別形状、第2の指定箇所の周囲に表示される第2の識別形状の一例を表示する様子と、第1の識別形状により特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調して第1のスピーカから出力する様子と、第2の識別形状により特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調して第2のスピーカから出力する様子とを示す図 図31(B)に示す映像データが表示されている状態において、ディスプレイに表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスが表示される様子を示す図 (A)第4の実施形態の音声処理システムの使用例の説明図、(B)第1の指定箇所の周囲に表示される第1の識別形状、第2の指定箇所の周囲に表示される第2の識別形状の一例を表示する様子と、第1の識別形状により特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調して第1のスピーカから出力する様子と、第2の識別形状により特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調して第2のスピーカから出力する様子とを示す図 図31(B)に示す映像データが表示されている状態において、ディスプレイに表示された映像データの表示領域外へのクリック操作毎に、全方位カメラにより撮像された映像データと調整用操作ボックスとを切り替えて表示する様子を示す図 図31(B)に示す映像データが表示されている状態において、ディスプレイに表示された映像データの表示領域外へのクリック操作に応じて、状態標示用ボックスが表示される様子を示す図 (A)第4の実施形態の音声処理システムの使用例の説明図、(B)第1の指定箇所の周囲に表示される第1の識別形状、第2の指定箇所の周囲に表示される第2の識別形状、第3の指定箇所の周囲に表示される第3の識別形状、第4の指定箇所の周囲に表示される第4の識別形状の一例を表示する様子と、第1の識別形状により特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調した音声データと、第2の識別形状により特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調した音声データと、第3の識別形状により特定される第3の指定箇所に対応する第3の音声位置に向かう第3の指向方向の音声を強調した音声データとを、第1及び第2の各スピーカから出力する様子を示す図 図36(B)に示す映像データが表示されている状態において、キーボードの複数の特定キーの同時押下操作に応じて、調整用操作ボックスが表示される様子を示す図 図36(B)に示す映像データが表示されている状態において、ディスプレイに表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスが表示される様子を示す図 (A)第4の実施形態の音声処理システムの使用例の説明図、(B)第1の指定箇所の周囲に表示される第1の識別形状、第2の指定箇所の周囲に表示される第2の識別形状、第3の指定箇所の周囲に表示される第3の識別形状、第4の指定箇所の周囲に表示される第4の識別形状の一例を表示する様子と、第1の識別形状により特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調した音声データと、第2の識別形状により特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調した音声データとを合成して第1のスピーカから出力する様子と、第3の識別形状により特定される第3の指定箇所に対応する第3の音声位置に向かう第3の指向方向の音声を強調した音声データを第2のスピーカから出力する様子を示す図 図39(B)に示す映像データが表示されている状態において、タッチパネルが設けられたディスプレイに表示された映像データの表示領域外へのタッチに応じて、調整用操作ボックスが表示される様子を示す図
 以下、本発明に係る音声処理システム及び音声処理方法の各実施形態について、図面を参照して説明する。各実施形態の音声処理システムは、工場、公共施設(例えば図書館又はイベント会場)、又は店舗(例えば小売店、銀行)に設置される監視システム(有人監視システム及び無人監視システムを含む)に適用される。
(第1の実施形態)
 図1(A)及び図1(B)は、各実施形態の音声処理システム5A,5Bのシステム構成を示すブロック図である。音声処理システム5Aは、監視用のカメラ10,10Aと、マイクアレイ20と、音声処理装置40とを含む構成である。カメラ10,10Aと、マイクアレイ20と、音声処理装置40とは、ネットワーク30を介して相互に接続されている。
 音声処理システム5Bは、監視用のカメラ10B,10Cと、マイクアレイ20Aと、レコーダ45Aと、PC(Personal Computer)70とを含む構成である。カメラ10B,10Cと、マイクアレイ20Aと、レコーダ45Aと、PC70とは、ネットワーク30Aを介して相互に接続されている。
 以下、音声処理システム5Aの各部の動作を主に説明し、音声処理システム5Bの各部の動作については音声処理システム5Aの動作と異なる内容について説明する。
 撮像部としてのカメラ10,10Aは、例えばイベント会場の室内の天井(例えば図6参照)に設置される監視カメラであり、ネットワーク30を介して接続された監視システム制御室(不図示)から遠隔操作が可能なパンチルト機能、ズームイン機能及びズームアウト機能を有し、監視対象の地点(場所)の周囲の映像(静止画及び動画を含む。以下同様)を撮像する。カメラ10,10Aは、撮像した映像のデータ(映像データ)を、ネットワーク30を介してレコーダ45に記録する。
 収音部としてのマイクアレイ20は、例えばイベント会場の室内の天井(例えば図6参照)に設置され、複数のマイクロホン22(例えば図2参照)が一様に設けられたマイクロホンである。マイクアレイ20は、各々のマイクロホン22を用いて、監視対象の地点(場所)周囲の音声を収音し、各々のマイクロホン22により収音された音声のデータ(音声データ)を、ネットワークを介してレコーダ45に記録する。マイクアレイ20の構造は、図2を参照して後述する。
 音声処理装置40は、レコーダ45と、信号処理部50と、操作部55と、再生部60とを含む構成である。レコーダ45は、レコーダ45におけるデータの記録等の各処理を制御するための制御部(不図示)と、映像データ及び音声データを格納するための記録部(不図示)とを含む構成である。レコーダ45は、カメラ10,10Aにより撮像された映像データと、マイクアレイ20により収音された音声データとを対応付けて記録する。
 信号処理部50は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)又はDSP(Digital Signal Processor)を用いて構成され、音声処理装置40の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を実行する。
 信号処理部50は、レコーダ45に記録されている音声データを用いて、後述する音声データの指向性制御処理によって各々のマイクロホンにより収音された各音声データを加算し、マイクアレイ20の各マイクロホン22の位置から特定方向への音声(音量レベル)を強調(増幅)するために、特定方向への指向性を形成した音声データを生成する。また、信号処理部50は、マイクアレイ20から送信された音声データを用いて、マイクアレイ20から特定方向(指向方向)への音声の音量レベルを強調(増幅)するために、特定方向への指向性を形成した音声データを生成しても良い。なお、特定方向とは、マイクアレイ20から、操作部55から指定された所定の指定箇所に対応する位置に向かう方向であり、音声データの音量レベルを強調(増幅)するためにユーザにより指定される方向である。
 信号処理部50は、レコーダ45に記録された映像データが全方位カメラ(後述参照)によって撮像された場合には、レコーダ45に記録された映像データの座標系(例えばx軸,y軸,z軸のうち2次元又は3次元の座標変換)の変換処理を行い、変換処理後の映像データをディスプレイ63に表示させる(図9(C)及び図9(E)参照)。
 操作部55は、例えばディスプレイ63の画面に対応して配置され、ユーザの指95又はスタイラスペンによって入力操作が可能なタッチパネル又はタッチパッドを用いて構成される。操作部55は、ユーザの操作に応じて、音声データの音量レベルの強調(増幅)を所望する1つ以上の指定箇所の座標のデータを信号処理部50に出力する。なお、操作部55は、マウス又はキーボード等のポインティングデバイスを用いて構成されても良い。
 再生部60は、ディスプレイ63と、スピーカ65とを含む構成であり、レコーダ45に記録された映像データをディスプレイ63に表示させ、更に、レコーダ45に記録された音声データをスピーカ65に音声出力させる。なお、ディスプレイ63及びスピーカ65は、再生部60とは別々の構成としても良い。
 表示部としてのディスプレイ63は、カメラ10,10Aによって撮像されてレコーダ45に記録された映像データを表示する。
 音声出力部としてのスピーカ65は、マイクアレイ20によって収音されてレコーダ45に記録された音声データ、もしくはその音声データを基にして信号処理部50にて特定方向への強調処理を行った音声データを音声出力する。
 ここで、音声処理装置40は、レコーダ45と音声処理装置40における他の各部とが異なる装置の構成としても良い(図1(B)参照)。具体的には、図1(A)に示す音声処理装置40は、図1(B)に示すレコーダ45Aと、図1(B)に示すPC70とを含む構成としても良い。即ち、PC70は、汎用のコンピュータを用いて構成され、信号処理部71と、ディスプレイ73及びスピーカ75を含む再生部72と、操作部78とを含む構成である。レコーダ45A及びPC70は、音声処理システム5Aにおける音声処理装置40に相当し、同様の機能及び動作を実現する。
 また、カメラ10B,10C及びマイクアレイ20Aの機能は、それぞれ音声処理システム5Aにおけるカメラ10,10A及びマイクアレイ20の機能と同一である。
 なお、音声処理システム5A,5Bに設置されるカメラの台数は、任意である。また、ネットワーク30,30Aが相互に接続され、音声処理システム5A-5Bの間においてデータの転送が可能でも良い。
 図2(A)は、マイクアレイ20の外観図である。マイクアレイ20は、円盤状の筐体21に配置された複数のマイクロホン22を含む構成である。複数のマイクロホン22は、筐体21の面に沿って配置され、筐体21と同一の中心を有する小さい円状及び大きい円状の2個の同心円状に沿って配置されている。小さな円状に沿って配置された複数のマイクロホン22Aは、互いの間隔が狭く、高い音域に適した特性を有する。一方、大きな円状に沿って配置された複数のマイクロホン22Bは、直径が大きく、低い音域に適した特性を有する。
 図2(B)は、第3の実施形態におけるマイクアレイ20Cの外観とマイクアレイ20Cと全方位カメラ10E(図9(A)参照)との取り付け状態とを示す図である。図2(B)に示すマイクアレイ20Cは、内側に開口部21aが形成されたドーナツ型形状の筐体21Cと、同筐体21Cに一様に設けられた複数のマイクロホン22Cとを含む構成である。複数のマイクロホン22Cは、筐体21Cに対して同心円状に沿って配置されている。
 図2(C)では、筐体21Cの開口部21aの内側には、図9(A)に示す全方位カメラ10Eが挿通した状態で取り付けられる。本実施形態では、全方位カメラ10Eは、例えば魚眼レンズを搭載したカメラであり、ホールの床面の広範囲を撮像するように取り付けられている。このように、全方位カメラ10Eとマイクアレイ20Cとは、マイクアレイ20Cの筐体21Cの中心を共通とした同軸上に配置されるので、同一の座標系を用いることが可能である。
 図3は、マイクアレイ20を用いた指向性制御処理の原理の説明図である。図3では、遅延和方式を用いた指向性制御処理の原理について簡単に説明する。音源80から発した音波が、マイクアレイ20の各マイクロホン22a,22b,22c,…,22n-1,22nに対し、ある一定の角度(入射角=(90-θ)[度])で入射するとする。マイクアレイ20の筐体21の面に対し、音源80は所定角度θの方向に配置されているとする。また、マイクロホン22a,22b,22c,…,22n-1,22n間の間隔は一定である。
 音源80から発した音波は、最初にマイクロホン22aに到達して収音され、次にマイクロホン22bに到達して収音され、次々に収音され、最後にマイクロホン22nに到達して収音される。なお、マイクアレイ20の各マイクロホン22a,22b,22c,…,22n-1,22nの位置から音源80に向かう方向は、例えば音源80が人物の会話時の音声である場合又は周囲の音楽である場合を想定すれば、人物の会話時の音声又は周囲の音楽の音声データの音量レベルを強調(増幅)するために操作部55から指定された所定の範囲に対応する方向と同じと考えることができる。
 ここで、音波がマイクロホン22a,22b,22c,…,22n-1に到達した時刻から最後に収音されたマイクロホン22nに到達した時刻までには、到達時間差τ1,τ2,τ3,…,τn-1が生じる。このため、各々のマイクロホン22a,22b,22c,…,22n-1,22nにより収音された音声データがそのまま加算された場合には、位相がずれたまま加算されるため、音波の音量レベルが全体的に弱め合うことになってしまう。
 なお、τ1は音波がマイクロホン22aに到達した時刻と音波がマイクロホン22nに到達した時刻との差分の時間であり、τ2は音波がマイクロホン22bに到達した時刻と音波がマイクロホン22nに到達した時刻との差分の時間であり、τn-1は音波がマイクロホン22n-1に到達した時刻と音波がマイクロホン22nに到達した時刻との差分の時間である。
 一方、本実施形態を含む各実施形態では、信号処理部50は、マイクロホン22a,22b,22c,…,22n-1,22n毎に対応して設けられたA/D変換器51a,51b,51c,…,51n-1,51n及び遅延器52a,52b,52c,…,52n-1,52nと、加算器57と、を有する構成である(図3参照)。
 即ち、信号処理部50は、各マイクロホン22a,22b,22c,…,22n-1,22nにより収音されたアナログの音声データを、A/D変換器51a,51b,51c,…,51n-1,51nにおいてAD変換することでデジタルの音声データを得る。更に、信号処理部50は、遅延器52a,52b,52c,…,52n-1,52nにおいて、各々のマイクロホン22a,22b,22c,…,22n-1,22nにおける到達時間差に対応する遅延時間を与えて位相を揃えた後、加算器57において遅延処理後の音声データを加算する。これにより、信号処理部50は、各マイクロホン22a,22b,22c,…,22n-1,22nの設置位置からの所定角度θの方向の音声データを強調した音声データを生成することができる。例えば図3では、遅延器52a,52b,53c,…,52n-1,52nに設定された各遅延時間D1,D2,D3,…,Dn-1,Dnは、それぞれ到達時間差τ1,τ2,τ3,…,τn-1に相当し、数式(1)により示される。
Figure JPOXMLDOC01-appb-M000001
 L1は、マイクロホン22aとマイクロホン22nにおける音波到達距離の差である。L2は、マイクロホン22bとマイクロホン22nにおける音波到達距離の差である。L3は、マイクロホン22cとマイクロホン22nにおける音波到達距離の差である。Ln-1は、マイクロホン22n-1とマイクロホン22nにおける音波到達距離の差である。Vsは音速である。L1,L2,L3,…,Ln-1,Vsは既知の値である。図3では、遅延器52nに設定される遅延時間Dnは0(ゼロ)である。
 このように、信号処理部50は、遅延器52a,52b,52c,…,52n-1,52nに設定される遅延時間D1,D2,D3,…,Dn-1,Dnを変更することで、レコーダ45に記録された音声データを用いて、マイクアレイ20の設置位置を基準とした任意の方向の音声データを強調した音声データを生成することができ、音声処理システム5A,5Bにおける音声データの指向性制御処理が簡易に行える。
 次に、本実施形態の音声処理システム5A,5Bの記録時及び再生時の各動作を説明する。ここでは、音声処理システム5Aが監視システムに適用された場合について説明する。図4は、音声処理システム5Aの記録時の動作手順を説明するフローチャートである。
 図4において、例えば監視システム制御室(不図示)にいるユーザからの遠隔操作により、カメラ10,10Aは、監視対象の地点(場所)の周囲の映像の撮像を開始する(S1)。カメラ10,10Aによる撮像の開始と同時又は略同時に、マイクアレイ20は、監視対象の地点(場所)の周囲の音声の収音を開始する(S2)。カメラ10,10Aは、撮像された映像データを、ネットワーク30を介して接続されたレコーダ45に転送する。マイクアレイ20は、収音された音声データを、ネットワーク30を介して接続されたレコーダ45に転送する。
 レコーダ45は、カメラ10,10Aから転送された映像データと、マイクアレイ20から転送された音声データとを全て対応付けて記録媒体に格納して記録する(S3)。ユーザからの遠隔操作により、カメラ10,10Aと、マイクアレイ20とレコーダ45との記録時の動作が終了する。
 図5は、1つ以上の指定箇所を指定する場合における、音声処理システム5A,5Bの再生時の動作手順を説明するフローチャートである。
 図5において、音声処理装置40のレコーダ45は、ユーザからの直接的な操作或いは遠隔操作により再生したい映像データの指定を受け付ける(S11)。映像データの指定には、例えば記録された日時及びカメラの種類が条件として用いられる。再生部60は、ステップS11において指定された条件に応じた映像データを再生し、ディスプレイ63の画面に表示させる。更に、再生部60は、再生された映像データに対応付けてレコーダ45に格納されている音声データも再生し、スピーカ65から音声出力させる。
 ここで、再生部60が再生している映像データの再生中或いは一時停止中に、ユーザが、操作部55を介して、ディスプレイ63の画面に表示されている映像データの中で音声(音量レベル)を強調(増幅)する1つ以上の指定箇所を指定したとする。信号処理部50は、ユーザの指定操作に応じて、映像データの内容の中で音声(音量レベル)を強調(増幅)する1つ以上の指定箇所の指定を受け付ける(S12)。
 以下、操作部55を介して、マイクアレイ20,20Aを基準として、音声(音量レベル)を強調(増幅)する方向(指向方向)に指向性を形成するために、ユーザにより指定された指定箇所を「指定箇所」と略記する。ステップS12では、例えばユーザが、ディスプレイ63の画面を指95でタッチすることで、ディスプレイ63の画面に表示された映像データに対する指定箇所、又はタッチされた指定箇所を中心とする所定の矩形の音声強調範囲が指定されたとする。
 信号処理部50は、操作部55を介して指定された1つ以上の指定箇所又は音声強調範囲を基に、マイクアレイ20の各マイクロホン22の位置の中心位置から1つ以上の指定箇所又は音声強調範囲の例えば中心に対応する実際の現場の各位置(各音声位置)に向かう方向(各指向方向)を、図3を参照して説明した所定角度θ1,θ2,…,θnの方向、即ち、音声(音量レベル)を強調(増幅)する各方向(各指向方向)として算出する。更に、信号処理部50は、現在再生部60によって再生されている映像データと対応付けてレコーダ45に格納されている音声データに対し、算出された所定角度θ1,θ2,…,θnにそれぞれ指向性を形成した音声データ、即ち、所定角度θ1,θ2,…,θnの音声(音量レベル)が強調(増幅)された音声データを生成する(S13)。
 なお、本実施形態では、信号処理部50は、マイクアレイ20の各マイクロホン22の位置の中心位置から1つ以上の指定箇所又は音声強調範囲の例えば中心に対応する各音声位置に向かう方向に指向性を形成した音声データを生成又は合成するが、更に、1つ以上の指定箇所又は音声強調範囲に対応する各音声位置に向かう方向(所定角度θ1,θ2,…,θn)から大きく外れる方向(例えば所定角度θ1,θ2,…,θnから±5度以上外れる方向)に対する音声データを抑圧処理しても良い。
 再生部60は、信号処理部50によって1つ以上の指定箇所又は音声強調範囲に対応する各音声位置に向かう方向の音声(音量レベル)が強調(増幅)された各音声データを、ステップS11の指定に応じてディスプレイ63に表示されている映像データと同期させて、スピーカ65から音声出力させる(S14)。これにより、音声処理装置40の再生時における動作は終了する。
 図6は、第1の実施形態の音声処理システム5Aの使用形態の一例を示す模式図である。図6(A)は、例えば屋内のイベント会場としてのホールの天井85に、1台のカメラ10と1台のマイクアレイ20とが離れた位置に設置された様子を示す図である。
 図6(A)では、2人の人物91,92がホールの床87に立って会話をしている。2人の人物91,92から少し離れた位置には、スピーカ82が床87の上に接して載置されており、スピーカ82から音楽が流れている。また、カメラ10は、カメラ10に予め設定された監視対象の地点(場所)の周囲にいる人物91,92を撮像している。更に、マイクアレイ20は、ホール全体の音声を収音している。
 図6(B)は、映像データがディスプレイ63に表示され、音声データがスピーカ65において音声出力されている様子を示す図である。ディスプレイ63の画面には、カメラ10が撮像した映像データが表示されている。また、スピーカ65からは、2人の人物91,92の会話又はホール内の音楽が音声出力されている。
 ユーザは、例えばディスプレイ63の画面に表示された2人の人物91,92の映像データの中央付近を指95でタッチしたとする。タッチ点63aはユーザにより指定された指定箇所となる。信号処理部50は、マイクアレイ20によって収音された音声、即ち各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a又は矩形範囲63bの中心に対応する音声位置に向かう指向方向(図6(A)に示す符号eで示される方向)に指向性を形成した音声データを生成する。
 即ち、信号処理部50は、各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a又は矩形範囲63bの中心に対応する音声位置に向かう指向方向の音声(音量レベル)を強調(増幅)した音声データを生成する。再生部60は、信号処理部50が生成した音声データを、カメラ10が撮像した映像データと同期させてスピーカ65から音声出力させる。
 この結果、ユーザによって指定されたタッチ点63a又は矩形範囲63bにおける音声データが強調され、スピーカ65から2人の人物91,92の会話(例えば図6(A)に示す「Hello」参照)が大きな音量によって音声出力される。一方、2人の人物91,92に比べ、マイクアレイ20により近い距離に載置されているがユーザによって指定されたタッチ点63aではないスピーカ82から流れている音楽(図6(A)に示す「♪~」参照)は強調して音声出力されず、2人の人物91,92の会話に比べて小さな音量によって音声出力される。
 以上により、本実施形態では、音声処理システム5A又は5Bは、レコーダ45に記録された映像データ及び音声データの再生中において、ユーザによって指定された任意の再生時間に対する映像中の音声データを強調して出力することができる。これにより、ユーザは、ディスプレイ63の画面に表示された映像データを見ながら、音声データを強調したい箇所をタッチして指定するだけで、簡単にその指定箇所又は指定箇所を含む指定範囲(音声強調範囲)における音声データを強調して音声出力させることができる。このように、本実施形態の音声処理システム5A又は5Bでは、ユーザは、カメラ10によって撮像された映像データをディスプレイ63にて目視しながら、自己に必要な範囲の音声情報を容易に得ることができる。
 例えば、本実施形態の音声処理システム5A又は5Bは、何かしらのアクシデントが発生した場合でも、アクシデントの発生後においても、マイクアレイ20の各マイクロホン22の位置からアクシデントの発生地点に向かう方向に指向性を形成した音声データを生成することで、アクシデントの発生時点における会話又は音声をユーザに確認させることができる。
 また、本実施形態の音声処理システム5A又は5Bは、カメラ10とマイクアレイ20とは、屋内のホール等の天井85に設置されているので、ホール内の至る所を監視することが可能となる。
(第2の実施形態)
 第1の実施形態では、カメラが1台である場合の音声処理システム5Aの使用形態の一例を説明した。第2の実施形態では、カメラが複数台(例えば2台)である場合の音声処理システム5Cの使用形態の一例を説明する。
 なお、第2の実施形態の音声処理システム5Cでは、カメラが複数台(例えば2台)であること以外は、第1の実施形態の音声処理システム5A又は5Bと同一の構成を有するので、第1の実施形態の音声処理システム5A又は5Bと同一の構成要素については同一の符号を用いることで、その説明を省略する。
 図7は、第2の実施形態の音声処理システム5Cの使用形態の一例を示す模式図である。図7(A)は、例えば屋内のホールの天井85に、2台のカメラ10,10Aと、2台のカメラ10,10Aの中間位置にある1台のマイクアレイ20と、スピーカ83とが設置された様子を示す図である。
 また、ホールの床87には、4人の人物91,92,93,94が立っており、人物91と人物92とが会話しており、人物93と人物94とが会話している。これら2組の間の位置には、スピーカ82が床87の上に載置されており、音楽が流れている。また、スピーカ83は、人物93と人物94とのほぼ真上の天井85に設置されている。
 カメラ10は、4人の人物91,92,93,94から少し離れた位置から2人の人物91,92を撮像しており、マイクアレイ20は、スピーカ82のほぼ真上の天井85に設置されており、ホール全体の音声を収音している。カメラ10Aは、4人の人物91,92,93,94から少し離れた位置から人物93,94を撮像している。
 図7(B)は、カメラ10により撮像された映像データがディスプレイ63に表示され、音声データがスピーカ65において音声出力されている様子を示す図である。ディスプレイ63の画面には、カメラ10が撮像した映像データが表示されている。また、スピーカ65からは、2人の人物91,92の会話又はホール内の音楽が音声出力されている。
 ユーザは、例えばディスプレイ63の画面に表示された2人の人物91,92の映像データの中央付近を指95でタッチしたとする。信号処理部50は、マイクアレイ20によって収音された音声、即ち各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a又は矩形範囲63bの中心に対応する音声位置に向かう指向方向(図7(A)に示す符号eで示される方向)に指向性を形成した音声データを生成する。
 即ち、信号処理部50は、各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a又は矩形範囲63bの中心に対応する音声位置に向かう指向方向の音声(音量レベル)を強調(増幅)した音声データを生成する。再生部60は、信号処理部50が生成した音声データを、カメラ10が撮像した映像データと同期させてスピーカ65から音声出力させる。
 この結果、ユーザによって指定されたタッチ点63a又は矩形範囲63bにおける音声データが強調され、スピーカ65から2人の人物91,92の会話(例えば図7(A)に示す「Hello」参照)が大きな音量によって音声出力される。一方、2人の人物91,92に比べ、マイクアレイ20により近い距離に載置されているがユーザによって指定された矩形範囲63bに含まれないスピーカ82から流れている音楽(図7(A)に示す「♪~」参照)は強調して音声出力されず、2人の人物91,92の会話に比べて小さな音量によって音声出力される。
 図7(C)は、カメラ10Aにより撮像された映像データがディスプレイ63に表示され、音声データがスピーカ65において音声出力されている様子を示す図である。ディスプレイ63の画面には、カメラ10Aが撮像した映像データが表示されている。また、スピーカ65からは、2人の人物93,94の会話又はホール内の音楽が音声出力されている。
 ユーザは、例えばディスプレイ63の画面に表示された2人の人物93,94の映像データの中央付近を指95でタッチしたとする。信号処理部50は、マイクアレイ20によって収音された音声、即ち各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63c又は矩形範囲63dの中心に対応する音声位置に向かう指向方向(図7(A)に示す符号fで示される方向)に指向性を形成した音声データを生成する。
 即ち、信号処理部50は、各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63c又は矩形範囲63dの中心に対応する音声位置に向かう指向方向の音声(音量レベル)を強調(増幅)した音声データを生成する。再生部60は、信号処理部50が生成した音声データを、カメラ10Aが撮像した映像データと同期させてスピーカ65から音声出力させる。
 この結果、ユーザによって指定されたタッチ点63c又は矩形範囲63dにおける音声データが強調され、スピーカ65から2人の人物91,92の会話(例えば図7(A)に示す「Hi」参照)が大きな音量によって音声出力される。一方、2人の人物93,94に比べ、マイクアレイ20により近い距離に載置されているがユーザによって指定された矩形範囲63dに含まれないスピーカ82から流れている音楽(図7(A)に示す「♪~」参照)は強調して音声出力されず、2人の人物93,94の会話に比べて小さな音量によって音声出力される。
 以上により、本実施形態では、音声処理システム5Cは、レコーダ45に記録された映像データ及び音声データの再生中において、ユーザによって指定されたいずれかのカメラ10又は10Aにおける映像データに対して指定された任意の再生時間に対する映像中の音声データを強調して出力することができる。これにより、ユーザは、カメラ10又は10Aが撮像した映像データをディスプレイ63で見ながら、音声(音量レベル)を強調(増幅)したい箇所をタッチして指定するだけで、簡単にその指定された指定箇所又はその指定箇所を含む指定範囲における音声データを強調して音声出力させることができる。このように、本実施形態の音声処理システム5Cでは、ユーザは、カメラ10又は10Aによって撮像された映像データをディスプレイ63にて目視しながら、自己に必要な範囲の音声情報を容易に得ることができる。
 また、本実施形態では第1の実施形態に比べて、音声処理システム5Cにおけるカメラの設置台数が複数でも良いため、カメラの台数に合わせてマイクアレイの台数を増やさなくて済み、コストの低減が可能な音声処理システム5Cを構築でき、音声処理システム5Cの省スペースを図ることができる。また、音声処理システム5Cは、1台目のカメラ10が既に設置された音声処理システム5A又は5Bに対し、2台目のカメラ10Aを増設するだけで第1の実施形態の音声処理システム5A又は5Bと同様な動作及び効果を得ることができ、音声処理システムの拡張性を向上できる。
(第3の実施形態)
 第1及び第2の各実施形態では、カメラとマイクアレイとが天井の異なる場所に設置されている音声処理システム5A又は5Bの使用形態の一例を説明した。第3の実施形態では、全方位カメラとマイクアレイとが一体として同軸上に設置された音声処理システム5Dの使用形態の一例を説明する。
 なお、第3の実施形態の音声処理システム5Dでは、全方位カメラとマイクアレイとが一体として同軸上に設置されたこと以外は、第1の実施形態の音声処理システム5A又は音声処理システム5Bと同一の構成を有するので、第1の実施形態の音声処理システム5A又は5Bと同一の構成要素については同一の符号を用いることで、その説明を省略する。
 図9は、音声処理システム5Dの使用形態の一例を示す模式図である。図9(A)は、例えば屋内のホールの天井85に、ドーナツ型形状のマイクアレイ20Cと、マイクアレイ20Cと一体として組み込まれた全方位カメラ10Eと、スピーカ83とが設置された様子を示す図である。図9(A)では、人物91,92,93,94の会話状況と、スピーカ82,83の各動作状況は第2の実施形態における状況と同じとする。
 図9(B)は、全方位カメラ10Eが撮像した映像データにおいて2人の人物91,92が選択される様子を示す図である。図9(B)では、ディスプレイ63の画面には、全方位カメラ10Eにおける座標系が用いられた映像データ、即ち全方位カメラ10Eが撮像した映像データがそのまま表示されている。図9(C)は、画像変換後の2人の人物91,92の映像データがディスプレイに表示され、人物91,92の会話の音声データがスピーカ65において音声出力されている様子を示す図である。
 ユーザは、例えばディスプレイ63の画面に表示された4人の人物91,92,93,94の映像データの左上付近の指定箇所を指95でタッチしたとする。信号処理部50は、第2の実施形態と同様の動作に加え、全方位カメラ10Eが撮像した広範囲の映像データの中から、ユーザにより指定された指定箇所を含む符号gの範囲の映像データの座標系を変換処理する。再生部60は、信号処理部50が座標系を変換処理した映像データを、ディスプレイ63に表示させる(図9(C)参照)。なお、範囲gは、指95のタッチ点から自動的に生成されるとする。また、信号処理部50における第2の実施形態と同様の動作の説明は省略する。
 この結果、ユーザによって指定された範囲gにおける音声データが強調され、スピーカ65から2人の人物91,92の会話(例えば図9(A)に示す「Hello」参照)が大きな音量によって音声出力される。一方、2人の人物91,92に比べ、マイクアレイ20Cにより近い距離に載置されているがユーザによって指定された指定箇所又はその指定箇所を含む指定範囲gに含まれないスピーカ82から流れている音楽(図9(A)に示す「♪~」参照)は強調して音声出力されず、2人の人物91,92の会話に比べて小さな音量によって音声出力される。
 図9(D)は、全方位カメラ10Eが撮像した映像データにおいて2人の人物93,94が選択される様子を示す図である。図9(D)では、ディスプレイ63の画面には、全方位カメラ10Eにおける座標系が用いられた映像データ、即ち全方位カメラ10Eが撮像した映像データがそのまま表示されている。図9(E)は、画像変換後の2人の人物93,94の映像データがディスプレイに表示され、人物93,94の会話の音声データがスピーカ65において音声出力されている様子を示す図である。
 ユーザは、例えばディスプレイ63の画面に表示された4人の人物91,92,93,94の映像データの右下付近の指定箇所を指95でタッチしたとする。信号処理部50は、第2の実施形態と同様の動作に加え、全方位カメラ10Eが撮像した広範囲の映像データの中から、ユーザにより指定された指定箇所を含む符号hの範囲の映像データの座標系を変換処理する。再生部60は、信号処理部50が座標系を変換処理した映像データを、ディスプレイ63に表示させる(図9(E)参照)。なお、範囲hは、指95のタッチ点から自動的に生成されるとする。また、信号処理部50における第2の実施形態と同様の動作の説明は省略する。
 この結果、ユーザによって指定された範囲hにおける音声データが強調され、スピーカ65から2人の人物93,94の会話(例えば図9(A)に示す「Hi」参照)が大きな音量によって音声出力される。一方、2人の人物93,94に比べ、マイクアレイ20Cにより近い距離に載置されているがユーザによって指定された指定箇所又はその指定箇所を含む指定範囲hに含まれないスピーカ82から流れている音楽(図9(A)に示す「♪~」参照)は強調して音声出力されず、2人の人物93,94の会話に比べて小さな音量によって音声出力される。
 以上により、本実施形態では、音声処理システム5Dは、全方位カメラ10Eとマイクアレイ20Cとは同軸上に配置されているので、全方位カメラ10Eとマイクアレイ20Cとの座標系を同一にすることができる。これにより、音声処理システム5Dは、第1,第2の各実施形態の効果に加え、全方位カメラ10Eにより撮像された映像データにおける被写体の位置とマイクアレイ20Cにより収音される被写体の人物の音声の方向とを対応付けるための座標系の変換処理を第1,第2の各実施形態に比べて容易化でき、再生部60における映像データと音声データとを同期した再生処理の負荷を軽減できる。
 また、音声処理システム5Dは、ユーザにより指定された指定箇所若しくはその指定箇所を含む指定範囲g又は指定範囲hに含まれる映像データが、ディスプレイ63の画面サイズに合わせた映像データに変換処理するので、全方位カメラ10Eにより撮像された映像データを、縦横比がディスプレイ63にとって自然な映像データの表示形態にて表示することができる。
 また、例えばマイクアレイの形状及び構成は、上述した各実施形態のものに限られず、種々の形状及び構成を用いても良い。図10(A)~(C)は、他のマイクアレイ20D、20E、20Fの外観図である。
 図10(A)に示すマイクアレイ20Dでは、図2に示すマイクアレイ20に比べ、円盤状の筐体21Dの径が小さい。筐体21Dの面に、複数のマイクロホン22Dが円状に沿って一様に配置されている。各々のマイクロホン22Dの間隔が短くなるので、マイクアレイ20Dは、高い音域に適した特性を有する。
 また、図10(B)に示すマイクアレイ20Eでは、矩形を有する筐体21Eの面に、複数のマイクロホン22Eが矩形に沿って一様に配置されている。筐体21Eが矩形に形成されているので、コーナー等の場所であってもマイクアレイ20Eを設置し易くなる。
 また、図10(C)に示すマイクアレイ20Fでは、円盤状の筐体21Fの面に、複数のマイクロホン22Fが縦横に一様に配列されている。複数のマイクロホン22Fが直線状に配置されているので、信号処理部50における音声の強調処理が簡易化できる。なお、縦方向又は横方向の1列だけに、複数のマイクロホン22Fが配置されても良い。
 また、上述した各実施形態では、ユーザがディスプレイ63に表示されている映像データを見ながら音声の強調を所望する指定箇所又はその指定箇所を含む指定範囲を任意に指95でタッチにより指定したが、例えば予めディスプレイ63の画面を複数の区画(例えば、上下左右の4区画)に分割しておき、いずれか1つの区画を選択して音声を強調したい範囲としても良い。
 また、上述した各実施形態では、カメラは映像を記録(録画)し、ディスプレイは記録された映像データを表示する場合を説明したが、カメラは所定周期で静止画像を撮像し、ディスプレイは、所定間隔で撮像される静止画像を表示する場合、即ちリアルタイムに映像を撮像して音声を収音する場合においても本発明は適用可能である。即ち、ユーザは、ディスプレイの画面に表示された静止画像中の所定範囲を指定し、その付近の音声を強調させることもできる。
 また、上述した各実施形態では、ユーザが指95で画面をタッチすることで、指95がタッチされたタッチ点を含む指定範囲(例えば楕円や矩形の範囲)が指定されたが、ユーザが指95で円や多角形等を描くことで所定範囲が指定されても良い。
 また、上述した各実施形態では、信号処理部50は、複数の指定箇所又は各々の指定箇所を含む指定範囲(音声強調範囲)の指定を、操作部55から受け付けても良い。この場合では、信号処理部50は、指定された各指定箇所又は指定範囲に応じて、音声データの強調処理を行う。図11は、所定の指定箇所又は指定範囲(音声強調範囲)が複数指定された場合のディスプレイ63及びスピーカ65の動作を示す模式図である。なお、説明を簡単にするために、音声処理システムが用いられたカメラ及びマイクアレイの動作状況は図6に示すカメラ10及びマイクアレイ20の動作状況と同様とする。
 この場合、信号処理部50は、スピーカ65から、2つの所定の異なる指定箇所又は異なる指定箇所を含む音声強調範囲63e、63fの指定に応じて、マイクアレイ20の各マイクロホン22の位置から2人の人物91,92の中心に対応する音声位置に向かう指向方向に指向性を形成した各音声データを生成し、更に、マイクアレイ20の各マイクロホン22の位置からスピーカ82の中心に対応する音声位置に向かう方向に指向性を形成した音声データを生成する。
 この結果、2人の人物91,92の会話(図11に示す「Hello」参照)と、スピーカ82から流れる音楽(図11に示す「♪~」参照)との両方が大きな音量によって音声出力される。これにより、音声処理システムは、1つのディスプレイにおいて2箇所以上の音声を強調させることができる。
 次に、上述した各実施形態におけるマイクアレイ20の筐体構造、マイクアレイ20の回路構成の一例について、図12~図30を参照して説明する。
(マイクアレイの筐体:4重の筐体構造)
 図12は、上述した各実施形態のマイクアレイ20の筐体構造の分解斜視図である。図13(A)は、図12に示すマイクアレイ20の筐体構造の平面図である。図13(B)は、図13(A)のA-A断面図である。図14は、図13(B)の点線範囲の要部拡大図である。
 図12に示すマイクアレイ20の筐体構造は、メイン筐体101と、パンチングメタルカバー103と、マイク板金105と、ベース板金107とが鉛直方向に沿って積層された構成である。メイン筐体101、パンチングメタルカバー103、マイク板金105、ベース板金107は、4層となった耐衝撃性筐体109(バンダル・レジスタント・ケーシング:vandal-resistant casing)を構成している。
 メイン筐体101は、例えば樹脂を材料として一体に成形される。メイン筐体101は、環状底部111に複数のマイク敷設用穴113が同心円上に設けられて有底筒状に形成される。環状底部111の中央部は、カメラ取付空間115となる。メイン筐体101は、メイン筐体外周壁117が、図12に示すマイクアレイ20の筐体構造において、最大外径を有する。
 パンチングメタルカバー103は、例えば金属を材料として一体の環状に成形される。パンチングメタルカバー103は、メイン筐体101の環状底部111を覆うようにメイン筐体101に取り付けられる。パンチングメタルカバー103には、音波を入射させるための多数の貫通孔(図示略)が穿設されている。パンチングメタルカバー103の外周にはメイン筐体101に向かって立ち上がる起立縁部119が絞り加工等によって形成される。起立縁部119は、メイン筐体101の下面外周に形成される周溝121(図14参照)に挿入される。起立縁部119には、円周方向の等間隔で複数の弾性係止爪123が更に上方(図12又は図14の上方)に向かって突出している。
 図15(A)は、パンチングメタルカバー103をメイン筐体101に固定する様子を示す斜視図である。図15(B)は、パンチングメタルカバー103をメイン筐体101に固定する様子を示す断面図である。弾性係止爪123は、周溝121の奥側に設けられている係止孔125aを通して回転することで、爪係止部125に係止される。パンチングメタルカバー103は、弾性係止爪123を爪係止部125に係止することで、メイン筐体101に固定される。
 マイク板金105は、例えば金属板をプレス加工することにより形成される。マイク板金105は、円環形状を周方向に四等分した形状で形成される。マイク板金105は、マイク板金固定ネジ(図示略)によってメイン筐体101に固定される。メイン筐体101に固定されたマイク板金105は、メイン筐体101の環状底部111との間に、マイク基板127を保持したマイク筐体129を挟んだ状態で保持する。
 マイク筐体129は、例えば樹脂を材料として一体に成形される。マイク筐体129は、円環形状を周方向に四等分した形状で形成される。マイク基板127には、4つの高音質小型エレクトレットコンデンサーマイクロホン(ECM:Electret Condenser Microphone)が同一面上に取り付けられている。マイク筐体129には、ECM131が図14中の下方にある状態で、マイク基板127が取り付けられる。マイク基板127とマイク筐体129との間にゴム部品が挟みこまれている(図14参照)。マイク基板127は、マイク筐体129に対して1つ取り付けられる。従って、マイクアレイ20の筐体構造全体では、合計4つのマイク基板127が取り付けられ、マイクアレイ20の筐体構造全体では、合計16個のECM131が装備される。
 従って、図12に示すマイクアレイ20の筐体構造では、底部の外側から、パンチングメタルカバー103、メイン筐体101、マイク筐体129、マイク板金105、ベース板金107が順に、図12に示す上方向に向かって配置されている。これらの複数の部材は、マイクアレイ20の図12に示す下方向からの外力(衝撃力)に対抗する構造体を構成している。例えばメイン筐体101とマイク筐体129とが一体構成でなく別体構成となっているので、図12に示す下方向からの外力(衝撃力)を分散し、ベース板金107がメイン筐体101及びマイク筐体129の変形を防ぐことができる。これにより、外力が加わった後でも、マイクアレイ20の収音時の形状維持が可能となり、マイクアレイ20の収音時における音響特性の劣化を防ぐことができる。
 ベース板金107は、例えば金属の材料をプレス加工(絞り加工)することにより一体に成形される。ベース板金107は、環状天板部133を有して有底筒状に形成される。即ち、環状底部111の外周からはベース板金外周壁135が下側に曲げられている。このベース板金外周壁135は、大径の環状天板部133の素板を絞り加工することにより得られる。ベース板金外周壁135が絞り加工されたベース板金107は、他の構成部材よりも高い強度を有している。
 ベース板金107は、メイン筐体101にベース板金固定ネジ(図示略)によって固定される。ベース板金107には、マイク板金105との間に、例えばマイクアレイ20の処理を制御するための部品等が実装されたメイン基板139と、例えばマイクアレイ20の各部に電源を供給するための部品等が実装された電源基板141とが配置される。メイン基板139と電源基板141は、図12に示すマイクアレイ20の筐体構造の全体で、それぞれが1つずつ設けられる。
 マイク板金105からは、複数の嵌合部143が円周方向に等間隔で起立している。嵌合部143は、半径方向に離間する一対の挟持片(外側挟持片145、内側挟持片147)からなる。嵌合部143は、メイン筐体外周壁117の内側で間隙149を有して配置される。嵌合部143には、ベース板金外周壁135が嵌合される。つまり、図12に示すマイクアレイ20の筐体構造では、側部の外側から、メイン筐体外周壁117、間隙149、外側挟持片145、ベース板金外周壁135、内側挟持片147が順に、半径方向内側に向かって配置されている。これらの重ねられた複数の部材は、マイクアレイ20の側部からの外力(衝撃力)に対抗する構造体を構成している。
 また、マイク板金105からは、起立して突出した当り止め部137があり、通常はベース板金107とは離れた位置にあるが、外力が加わってメイン筐体101が変形した場合、当り止め部137がベース板金107に当り、メイン筐体101に大きなひずみが生じないように働く。
 (ECMの直付構造)
 図16は、ECMの取付構造の模式図である。図12に示すマイクアレイ20の筐体構造では、マイク基板127がマイク板金105の下側に配置され、メイン基板139及び電源基板141がマイク板金105の上側に配置される。つまり、マイク基板127と、メイン基板139及び電源基板141とは、2階建ての構造となって配置されている。ここで、4つのマイク基板127は、円周回りの一方向で第1のマイク基板127、第2のマイク基板127、第3のマイク基板127、第4のマイク基板127が順に配置されているとする。この場合、メイン基板139は、第1のマイク基板127と、第4のマイク基板127に電源配線151によって接続されている。第1のマイク基板127は、第2のマイク基板127に接続されている。第4のマイク基板127は、第3のマイク基板127に接続されている。
 マイク基板127の下面側には、ECM131が取り付けられる。ECM131には、一対のピン端子153が突出される。ECM131は、それぞれのピン端子153が、マイク基板127の所定の回路に設けられた端子ピン挿入孔(図示略)に挿入され、例えば半田によって直接に接続固定される。これにより、マイク基板127に対するECM131の薄厚化(低背化)を実現している。また、ECM131のマイク基板127への直付けにより材料費を安価としている。
(ADコンバータ配置)
 図17は、マイク基板127の平面図である。図17に示す1つのマイク基板127には、4つのECM131が取り付けられている。マイク基板127の回路(マイク基板回路)では、それぞれのECM131に接続される線路長の差は音波信号における位相差を生じさせ、結果的に、この位相差が指向角のズレとなってくる。このため、それぞれのECM131に接続される線路長は、できるだけ等しくする必要がある。
 そこで、マイク基板127では、2つのECM131と1つのADコンバータ155との組合せによりマイク基板回路が構成されている。マイク基板回路は、1つのADコンバータ155が2つのECM131の間に、それぞれのECM131から等距離で配置されることで、ADコンバータ155とECM131との間のアナログ線路157を増幅回路を経由して最短でかつ同じ線路長となるように配線している。これにより、マイク基板回路は、マイク基板127におけるノイズ信号のレベルを各ECMにおいて均等にでき、かつ指向角のズレを低減できる。
(マイク基板回路)
 図18(A)は、複数のマイク回路159に対して1つのリップル除去回路161が設けられるマイク基板回路の図を示す。図18(B)は、複数のマイク回路159のそれぞれにリップル除去回路161が設けられるマイク基板回路の図である。
 マイク基板127のマイク基板回路には、ECMが配置されたマイク回路159と電源基板141との間に、リップル除去回路161が設けられる。リップル除去回路161は、直流信号は通過させるが、特定周波数の交流信号をカットするフィルタである。リップル除去回路161は、図18(A)に示すように、並列接続した4つのマイク回路159と電源基板141の間に、1つ設けることができる。この場合、マイクアレイ20の製造コストの低減が可能となる。
 一方、リップル除去回路161は、図18(B)に示すように、4つそれぞれのマイク回路159と電源基板141の間に設けてもよい。この場合、異なるECM間の信号流入が低減され、所謂クロストーク163の抑制が可能となる。
(マイクアレイとカメラとの間の構造的な隙間対策)
 図19(A)は、カメラアダプタが取り付けられずに全方位カメラが取り付けられたマイクアレイ20の筐体構造の斜視図である。図19(B)は、屋外用全方位カメラ165がカメラアダプタと共に取り付けられたマイクアレイ20の筐体構造の斜視図である。図20は、屋内用全方位カメラ167が取り付けられるマイクアレイ20の筐体構造の分解斜視図である。図21は、屋外用全方位カメラ165が取り付けられるマイクアレイ20の筐体構造の分解斜視図である。図22(A)は、屋外用全方位カメラ165が取り付けられたマイクアレイ20の筐体構造の側面図である。図22(B)は、図22(A)のB-B断面図である。図23は、図22の要部拡大図である。
 マイクアレイ20の筐体構造において、中央部のカメラ取付空間115に、例えば全方位カメラを組み込むことかできる。全方位カメラには、屋外用全方位カメラ165と、屋内用全方位カメラ167とがある。図19(A)に示すように、マイクアレイ20の筐体構造として、例えば屋内用全方位カメラ167がカメラ取付空間115に取り付けられると、マイクアレイ20のメイン筐体101と屋内用全方位カメラ167との間に隙間169が生じ、マイクアレイ20の内部が見えてしまう。内部が見える状態は、製品としての見栄えの悪化やごみなどの進入だけでなく、マイクアレイ20の内部空間に音が侵入して、共鳴や反射などを起こし、音響的な性能の劣化の原因となってしまう。
 また、全方位カメラには用途や機能によって様々なサイズがある。それぞれの全方位カメラ用に、サイズの異なるメイン筐体101を準備することは、製造上のコストアップが避けられない。メイン筐体101をひとつのサイズに固定して、全方位カメラの機種による隙間の違いを、カメラアダプタを用いて隙間を塞ぐことで、製造コストを抑えることが可能になる。
 そこで、図19(B)に示すように、例えば屋外用全方位カメラ165がカメラ取付空間115に取り付けられる場合には、屋外用カメラアダプタ171が、屋外用全方位カメラ165の周囲に取り付けられる。また、図20に示すように、屋内用全方位カメラ167がカメラ取付空間115に取り付けられる場合には、屋内用カメラアダプタ173が、屋内用全方位カメラ167の周囲に取り付けられる。屋内用カメラアダプタ173は、例えば樹脂を材料として筒状に形成される。屋内用カメラアダプタ173の下端には隙間隠し用のフランジ175が形成され、フランジ175は屋内用全方位カメラ167をカメラ取付空間115に取り付けた場合に生じる屋内用全方位カメラ167とメイン筐体101との間の隙間169を隠す。
 屋内用カメラアダプタ173には複数の周壁弾性爪177が、複数の切り込み179内に、円周方向に沿って等間隔に形成される。屋内用カメラアダプタ173は、周壁弾性爪177を屋内用全方位カメラ167のカメラ筐体181に係止して取り付けられる。ベース板金107には、図22に示す複数のカメラ固定用板金部183が円周方向に沿って等間隔で形成されている。カメラ固定用板金部183は、ダルマ穴185を有してカメラ取付空間115の上方に配置される。カメラ筐体181の上面には、カメラ固定用板金部183のダルマ穴185に係合する大径頭部(図示略)を有する係合ピン(図示略)が突設されている。屋内用カメラアダプタ173が取り付けられた屋内用全方位カメラ167は、カメラ取付空間115に挿入され、回転されることで、係合ピンがダルマ穴185に係合して落下が規制されて支持される。この回転位置で、屋内用全方位カメラ167は、カメラ回転規制ネジ(図示略)によってマイクアレイ20のメイン筐体101等にロックされる。また、屋内用全方位カメラ167がロックされた状態では、周壁弾性爪177は、メイン筐体101の内周壁が邪魔となって、カメラ固定用板金部183の係止の解除が規制される。
 一方、図21に示す屋外用カメラアダプタ171の外周には、先端が自由端となったバヨネット板187が設けられている。バヨネット板187の自由端には、半径方向内側に突出するアダプタ回転規制爪189(図23参照)が形成されている。アダプタ回転規制爪189は、カメラ筐体181に形成されるバヨネット係合溝191に係合する。他の構造は、屋内用カメラアダプタ173と同様である。カメラ取付空間115に組み込まれた屋外用カメラアダプタ171を回転させようとすると、図23に示すように、アダプタ回転規制爪189がバヨネット係合溝191に係合して、回転が規制される。つまり、屋外用カメラアダプタ171と屋外用全方位カメラ165との相対回転が規制される。なお、屋外用カメラアダプタ171のフランジ175には、工具挿入溝193が形成される。屋外用全方位カメラ165は、カメラ取付空間115に押し込まれると、回転させる手段が無くなる。そこで、工具挿入溝193にドライバー等を入れて回すことが可能となっている。
(マイクアレイと全方位カメラとの別体使用時に用いられる蓋)
 図24は、蓋195の取り付けられるマイクアレイ20の筐体構造の分解斜視図である。マイクアレイ20と全方位カメラとは、例えば図7(A)に示すように一体的に取り付けられて使用される場合もあるが、例えば図9(A)に示すように別体で取り付けられて使用される場合もある。この場合、カメラ取付空間115は、図24に示す蓋195によって塞がれる。蓋195は、例えば樹脂を材料として一体に成形される。また、蓋195は、金属製の蓋用板金197との係止構造等によって一体に組み合わせられる。蓋195は、蓋用板金197と組み合わされることで、外力(衝撃力)を蓋用板金197へ分散させる。これにより、蓋195は、蓋195自身の大きな変形が抑制されて、割れ等が防止される。蓋195は、蓋用板金197と組み合わされて、カメラ取付空間115へ挿入され、蓋用板金197が、全方位カメラ固定用のカメラ固定用板金部183に係合することで支持される。この状態で、蓋195は、蓋回転止ネジ199によってカメラ固定用板金部183に回転止めされて固定される。
(取付金具)
 図25は、取付金具201を用いて天井に取り付けられるマイクアレイ20の筐体構造の分解斜視図である。図26(A)は、ベース板金用固定穴203に差し込まれる前のベース板金側固定ピン205の側面図である。図26(B)は、ベース板金用固定穴203に差し込まれたベース板金側固定ピン205の側面図である。図26(C)は、ベース板金用固定穴203に差し込まれたベース板金側固定ピン205の平面図である。図26(D)は、ベース板金用固定穴203の小径穴207に移動したベース板金側固定ピン205の側面図である。図26(E)は、ベース板金用固定穴203の小径穴207に移動したベース板金側固定ピン205の平面図である。
 耐衝撃性筐体109(図12参照)は、取付金具201を用いて設置面の一例としての天井面(図示略)に取り付けられる。即ち、取付金具201は、天井面に固定され、この取付金具201に、筐体構造を有する耐衝撃性筐体109が取り付けられる。
 取付具の一例としての取付金具201は、図25に示すように、円形の金具基部を有する。ただし、取付具は金属製の取付金具201に限定されず、取付具の材質は例えばセラミックスでも合成樹脂(例えばプラスチックまたはエラストマ)でもよい。金具基部には、ベース板金用固定穴203が複数(例えば3個)穿設される。ベース板金用固定穴203は、小径穴207と大径穴209とが接続されたダルマ形状またはヘチマ形状に形成されている。
 一方、天井面と対面するベース板金107の面には、ベース板金用固定穴203に対応してベース板金側固定ピン205が突設される。図26(A)に示すように、ベース板金側固定ピン205は、突出先端に大径のピン頭部211を有する。大径のピン頭部211は、大径穴209に挿入可能となり、小径穴207には離脱が規制されて係止可能となっている。
 次に、耐衝撃性筐体109の取り付け方法を説明する。
 先ず、設置面の一例としての天井面に耐衝撃性筐体109を取り付けるには、取付金具201を天井面の所定位置に天井固定ネジ(図示略)によって固定する。天井面に固定された取付金具201に、耐衝撃性筐体109を同心円状に位置合わせする。
 次に、図26(B)及び図26(C)に示すように、ベース板金側固定ピン205の大径のピン頭部211をベース板金用固定穴203の大径穴209に挿入する(図26(B)及び図26(C)参照)。
 その後、図26(D)及び図26(E)に示すように、耐衝撃性筐体109を回転して、大径のピン頭部211を小径穴207に移動することで、全てのベース板金側固定ピン205がベース板金用固定穴203に同時に固定される。取付金具201を介して天井面に固定された耐衝撃性筐体109のカメラ取付空間115には、上述したようにして、屋外用全方位カメラ165や屋内用全方位カメラ167が、取り付けられる。
 このように、マイクアレイ20の筐体構造では、取付金具201によって天井面に固定された耐衝撃性筐体109に、全方位カメラが直接取り付けられる。これにより、マイクアレイ20の筐体構造は、マイク板金105の固定されているベース板金107に、全方位カメラが直接取り付けられるので、ECM131と全方位カメラの位置精度を向上させることができる。
(反射音の抑制)
 図27は、ECM用凹部213にテーパ223が設けられたマイクアレイ20の筐体構造の断面図である。マイクアレイ20の筐体構造は、図27に示すように、ECM用凹部213の内周面が、ECM131に向かって縮径されるテーパ223となっている。テーパ223は、最小径がECM131の挿入される緩衝材217の円形凸部の外径と略一致し、最大径が環状底部111のマイク敷設用穴113と略一致する。テーパ223が形成されたECM用凹部213は、気柱の共振点が上がる。また、ECM用凹部213の内周面の反射波がECM131に向かわなくなる。更に、筐体横方向からの音波に乱れが無い状態でECM131に届くようになる。これにより、使用可能な音域が広がり、マイクアレイ20の収音時における音響特性が向上する。また、パンチングメタルカバー103と環状底部111の間には、風騒音を低減させるための不織布221が挟持されている。
(風対策)
 図28は、風対策の施されたマイクアレイ20の筐体構造の断面図である。マイクアレイ20の筐体構造は、マイク筐体129に、複数のECM用凹部213がECM131に応じて形成される。ECM用凹部213は、例えば円形状に形成され、中心にECM131を表出させる透孔215が形成される。なお、ECM131は、例えば外周にゴム等の緩衝材217が巻かれてマイク筐体129に取り付けられ、ECM131の先端が透孔215に挿入される。ECM用凹部213は、環状底部111に形成されるマイク敷設用穴113と同心円状に配置される。このECM用凹部213には、風対策用の吸音材219を充填できる。吸音材219の表面は、不織布221によって覆う。不織布221は、パンチングメタルカバー103と環状底部111とに挟持されている。
 次に、ECM用凹部213の変形例を、図29(A)~(C)を参照して説明する。図29(A)は、ECM用凹部213の内径と深さとの関係を表したマイクアレイ20の筐体構造の断面図である。図29(B)は、ECM用凹部213の内壁が傾斜壁225となったマイクアレイ20の筐体構造の断面図である。図29(C)は、ECM用凹部213の内周隅部がR部227となったマイクアレイ20の筐体構造の断面図である。
 図29(A)に示すように、ECM用凹部213の直径Dと深さHは、所定の関係となることが好ましい。例えばH/D<1/10の関係を満たすことで、ECM用凹部213の共振周波数近傍でピークが抑えられるため、音響性能に悪影響を与えなくなる。
 図29(B)に示すように、ECM用凹部213は、平坦な凹部底面229と、テーパ状の傾斜壁225とによって形成されてもよい。これによって、ECM用凹部213の共振周波数を使用周波数帯域よりも高く出来るとともに、ECM用凹部213の内周面からECM131へ向かう反射波を低減させることができる。
 図29(C)に示すように、ECM用凹部213は、内周隅部をR部227としてもよい。これによっても、ECM用凹部213の共振周波数を使用周波数帯域よりも高く出来るとともに、ECM用凹部213の内周面からECM131へ向かう反射波を低減させることができる。
 図30(A)は、テーパ223を形成しないECM用凹部213の等圧面を表した説明図である。図30(B)は、テーパ223を形成したECM用凹部213の等圧面を表した説明図である。
 ECM131の近傍の音は、例えば波動方程式による空間を伝わる音を有限要素法で解析することによってシミュレーションすることができる。この場合、ECM用凹部213にテーパ223を設けないモデルでは、図30(A)に示すように、等圧面の間隔が、筐体表面231とECM部233で異なる。一方、ECM用凹部213にテーパ223を設けたモデルでは、図30(B)に示すように、等圧面の間隔が、筐体表面231とECM部233で同じとなる。これにより、ECM用凹部213にテーパ223が設けられることで、ECM131に向かって音波が乱れることなく届くことになる。
 次に、上述した各実施形態のマイクアレイ20の筐体構造の作用を説明する。
 上述した各実施形態のマイクアレイ20の筐体構造では、有底筒状に形成される樹脂製のメイン筐体101に、金属製のマイク板金105と、有底筒状の金属製のベース板金107が固定される。金属製のマイク板金105には、ベース板金107側に当り止め部137が起立している。また、メイン筐体101には、メイン筐体101を挟んでマイク板金105の反対側に、金属製のパンチングメタルカバー103が固定される。
 上述した各実施形態のマイクアレイ20の筐体構造は、外部からの衝撃エネルギーが、樹脂製のメイン筐体101を変形させることによって吸収される。メイン筐体101の破壊強度以上の衝撃エネルギーは、金属製のマイク板金105を変形させることによって吸収される。更に、マイク板金105を所定量以上に塑性変形させる衝撃エネルギーは、当り止め部137を介してベース板金107に加えられ、最終的にはベース板金107が取り付けられる建物躯体等へ逃がされる。
 また、上述した各実施形態のマイクアレイ20の筐体構造では、別体の部材で作られるパンチングメタルカバー103、メイン筐体101、マイク板金105、ベース板金107が、一体に固定されて組み立てられる。このため、外部からの衝撃エネルギーは、これら部材間の間隙149、擦れ合いによる摩擦によっても吸収されて低減される。
 また、上述した各実施形態のマイクアレイ20の筐体構造は、マイク基板127が、パンチングメタルカバー103とマイク板金105に挟まれている。メイン基板139及び電源基板141が、マイク板金105とベース板金107に挟まれている。つまり、マイク板金105は、金属製のパンチングメタルカバー103と金属製のマイク板金105とが構成する導電性外殻によって電磁シールドされる。メイン基板139及び電源基板141は、金属製のマイク板金105と金属製のベース板金107とが構成する導電性外殻によって電磁シールドされる。
 また、上述した各実施形態のマイクアレイ20の筐体構造では、樹脂製のメイン筐体101と金属製のマイク板金105によって挟まれるマイク筐体129が、樹脂素材で作られている。マイク筐体129には、複数のマイクが固定される。マイク筐体129に固定されたマイクは、メイン筐体101の環状底部111に開口するマイク敷設用穴113を通して外部に開放される。このマイク敷設用穴113は、環状底部111を覆うパンチングメタルカバー103によって覆われる。
 例えば、耐衝撃性筐体109が天井面に固定されると、パンチングメタルカバー103は、地面に対面する側に配置される。地面側より耐衝撃性筐体109に加えられる打撃等の衝撃は、先ず、パンチングメタルカバー103に加わる。金属製のパンチングメタルカバー103は、弾性限界以上の衝撃によって塑性変形し、衝撃エネルギーを吸収する。パンチングメタルカバー103の塑性変形によって吸収されなかった衝撃エネルギーは、メイン筐体101の環状底部111に加わる。衝撃エネルギーは、環状底部111を変形させるとともに、マイク板金105とベース板金107に加わる。マイク筐体129はマイク板金に止められているため、大きな衝撃エネルギーは加わらない。
 このときの衝撃エネルギーが、樹脂製のメイン筐体101の弾性限界以上であると、メイン筐体101は、白化や亀裂等を生じさせ、その衝撃エネルギーを吸収する。メイン筐体101は、白化や亀裂が生じるが、全体が完全に破壊されない限り、白化や亀裂を有したまま元の形状に復元される。つまり、メイン筐体101は、白化や亀裂が生じていてもマイクの音響特性に大きな影響を及ぼさない。また、塑性変形したパンチングメタルカバー103も、開口率が高いため、変形してもマイクの音響特性に影響を及ぼさない。このため、外部からの衝撃に対抗し、マイクの音響特性が劣化しにくい。
 なお、メイン筐体101がアルミ製であると、パンチングメタルカバー103からの衝撃によって塑性変形が生じ易くなる。特にマイク周辺形状が塑性変形した場合には、音響特性が劣化する。従って、上述した各実施形態のマイクアレイ20の筐体構造によれば、このような塑性変形による音響特性の劣化が抑制される。
 更に、筐体構造では、メイン筐体101の内側に、マイク板金105が配置される。マイク板金105からは、嵌合部143が起立する。嵌合部143は、メイン筐体外周壁117の内側で、間隙149を有して配置される。この嵌合部143は、半径方向(メイン筐体外周壁117の厚み方向)に離間する一対の挟持片を有する。嵌合部143の一対の挟持片の間には、ベース板金107のベース板金外周壁135が挿入して嵌められ(嵌合され)る。つまり、本筐体構造では、耐衝撃性筐体109の側部が、外側より、メイン筐体外周壁117、間隙149、外側挟持片145、ベース板金外周壁135、内側挟持片147の順で内側に重ねられて構成されている。
 側部の外方より耐衝撃性筐体109に加えられる打撃等の衝撃エネルギーは、先ず、メイン筐体外周壁117に加わる。メイン筐体外周壁117は、間隙149の間を弾性変形して衝撃エネルギーを吸収する。弾性限界以上の衝撃エネルギーは、嵌合部143に加わる。嵌合部143に加わる衝撃エネルギーは、外側挟持片145、ベース板金外周壁135、内側挟持片147を弾性変形させて吸収される。また、この嵌合部143に加わる衝撃エネルギーは、外側挟持片145とベース板金外周壁135、ベース板金外周壁135と内側挟持片147の摩擦によっても効果的に吸収されて低減される。
 従って、上述した各実施形態のマイクアレイ20の筐体構造によれば、耐衝撃性を向上させることができる。
(第4の実施形態)
 第1~第3の各実施形態では、ディスプレイ63,73に表示された映像データにおいて、ユーザにより1つの指定箇所が指定された場合の音声処理システムの動作を想定して説明した。第4の実施形態では、同様にディスプレイ63,73に表示された映像データにおいて、ユーザにより異なる複数(例えば2つ)の指定箇所が指定された場合の音声処理システムの動作について説明する。本実施形態の音声処理システムのシステム構成は図1(A)に示す音声処理システム5Aのシステム構成と同一であるため、音声処理システム5Aの各部の符号を参照して説明する。
 本実施形態の音声処理システムは、例えばディスプレイ63,73に表示された映像データにおいてユーザにより2つの指定箇所が指定された場合、指定された2つの指定箇所を適正に区別し、区別したことをユーザに対して視覚的に明示するために、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示する。更に、本実施形態の音声処理システムは、マイクアレイ20により収音された音声の音声データを用いて、マイクアレイ20から各指定箇所に対応する音声位置に向かう方向に指向性をそれぞれ形成し、各識別形状に対応付けて予め規定された方法に従って、音声出力する。
 図8は、第4の実施形態の音声処理システム5Aの使用形態の一例を示す模式図である。図8(A)は、例えば屋内のホールの天井85に、1台のカメラ10と、1台のマイクアレイ20と、スピーカ82とが設置された様子を示す図である。図8(B)は、ディスプレイ63に表示された映像データの中で複数の指定箇所が指定された場合の音声処理システム5Aの動作概要の説明図である。
 図8(A)では、2人の人物91a,92aがホールの床87に立って会話をしている。2人の人物91a,92aから少し離れた位置には、スピーカ82が床87の上に接して載置されており、スピーカ82から音楽が流れている。また、カメラ10は、カメラ10に予め設定された監視対象の地点(場所)の周囲にいる人物91a,92aを撮像している。更に、マイクアレイ20は、ホール全体の音声を収音している。ディスプレイ63の画面68には、カメラ10が撮像した映像データが表示されている。また、スピーカ65からは、2人の人物91,92の会話又はホール内の音楽が音声出力されている。
 ユーザは、例えばディスプレイ63の画面68に表示された2人の人物91a,92aの頭上付近を指95でそれぞれ連続的にタッチしたとする。タッチ点63a1,63a2はユーザにより指定された複数の指定箇所となる。信号処理部50は、マイクアレイ20によって収音された音声、即ち各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a1,63a2に対応する各音声位置に向かう各指向方向(図8(A)に示す符号e1,e2で示される方向)に指向性を形成した各音声データを生成して合成する。
 即ち、信号処理部50は、各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a1,63a2に対応する各音声位置に向かう各指向方向の音声(音量レベル)を強調(増幅)した音声データを生成して合成する。再生部60は、信号処理部50が合成した音声データを、カメラ10が撮像した映像データと同期させてスピーカ65から音声出力させる。
 この結果、ユーザによって指定されたタッチ点63a1,63a2に対応する各音声位置における音声が強調され、スピーカ65から2人の人物91a,92aの会話(例えば図8(A)に示す「Hello」及び「Hi!」参照)が大きな音量によって音声出力される。一方、2人の人物91a,92aに比べ、マイクアレイ20により近い距離に載置されているがユーザによって指定されたタッチ点63a1,63a2ではないスピーカ82から流れている音楽(図8(A)に示す「♪~」参照)は強調して音声出力されず、2人の人物91a,92aの会話に比べて小さな音量によって音声出力される。
 次に、ユーザにより複数の指定箇所が指定された場合に、本実施形態の音声処理システムが、ディスプレイ63に表示された映像データの中で、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示する例、及び各識別形状に対応付けて予め規定された方法に従って音声出力する例について、図31~図40を参照して詳細に説明する。なお、本実施形態の図31~図40の説明を分かり易くするために、全方位カメラ10Eとマイクアレイ20Cとが一体として組み込まれた音声処理システム5Dを想定して説明する(図9(A)参照)が、本実施形態の音声処理システム5Dでは複数(例えば2つ)のスピーカ65L,65Rが音声処理装置40又はPC70に設けられているとする。
 図31(A)は、第4の実施形態の音声処理システム5Dの使用例の説明図である。図31(B)は、第1の指定箇所の周囲に表示される第1の識別形状91M、第2の指定箇所の周囲に表示される第2の識別形状92Mの一例を表示する様子と、第1の識別形状91Mにより特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調して第1のスピーカ65Lから出力する様子と、第2の識別形状92Mにより特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調して第2のスピーカ65Rから出力する様子とを示す図である。
 図31(A)では、例えば屋内のホールの天井85に、ドーナツ型形状のマイクアレイ20Cと、マイクアレイ20Cと一体として組み込まれた全方位カメラ10Eと、スピーカ83とが設置されている。また、図31(A)では、4人の人物91a,92a,93a,94aがホールの床87に立って会話をしており、より具体的には人物91a,92aが会話をしており、人物93a,94aが会話をしている。人物92a,93aから少し離れた位置には、スピーカ82が床87の上に接して載置されており、スピーカ82から音楽が流れている。また、全方位カメラ10Eは、所定の視野角内に存在する人物91a,92a,93a,94a及びスピーカ82を撮像している。更に、マイクアレイ20Cは、ホール全体の音声を収音している。ディスプレイ63の画面68には、全方位カメラ10Eが撮像した映像データが表示されている。
(指定箇所の指定方法と指定方法に対応付けられた音声出力方法との組み合わせ)
 以下、本実施形態の音声処理システム5Dにおいて、ユーザの複数の指定箇所の指定方法と、指定箇所毎に表示される識別形状に対応付けられた音声出力方法との組み合わせについて、複数の例を用いて説明する。但し、以下の指定箇所の指定方法と音声出力方法との組み合わせはあくまで一例であり、各組み合わせにおいて他の指定箇所の指定方法や音声出力方法が用いて組み合わされても良い。
(第1の指定方法及び音声出力方法の組み合わせ)
 第1の指定方法は、例えばマウスを用いた左クリック操作及び右クリック操作により、指定箇所を指定する方法である。第1の音声出力方法は、指定箇所の一方の音声データを一方のスピーカから音声出力し、指定箇所の他方の音声データを他方のスピーカから音声出力する単純ステレオ2ch(チャンネル)出力方法である。
 ユーザは、例えばディスプレイ63の画面68(図31(B)参照)に表示された人物91aの頭上付近を操作部55(例えばマウス)の左クリック操作により、更に、人物92aの頭上付近を操作部55(例えばマウス)の右クリック操作により、それぞれ連続的に指定したとする。左クリック操作及び右クリック操作により指定された箇所は、ユーザにより指定された複数の指定箇所となる。信号処理部50は、複数の指定箇所が指定された場合に、各指定箇所を適正に区別するために、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示させる。
 具体的には、信号処理部50は、左クリック操作により指定された人物91aの周囲に、人物91aが指定されたことを視覚的に明示するための識別形状91Mを表示させ、同様に、右クリック操作により指定された人物92aの周囲に、人物92aが指定されたことを視覚的に明示するための識別形状92Mを表示させる。識別形状91M,92Mは、例えばそれぞれ緑色,赤色の矩形であるが、色や形状は緑色、赤色、矩形に限定されない。
 また、信号処理部50は、マイクアレイ20Cによって収音された音声の音声データを用いて、マイクアレイ20Cの設置位置から、ユーザが指定した2つの指定箇所に対応する各音声位置に向かう各指向方向(図31(A)に示す符号e1,e2で示される方向)に指向性を形成した各音声データを生成する。再生部60は、全方位カメラ10Eが撮像した映像データと同期させて、識別形状91Mにより特定される第1の指向方向(図31(A)に示す符号e1参照)の音声を強調した音声データをスピーカ65Lから音声出力し、識別形状92Mにより特定される第2の指向方向(図31(A)に示す符号e2参照)の音声を強調した音声データをスピーカ65Rから音声出力する。従って、人物91aの会話音声(「Hello」)はスピーカ65Lから強調されて音声出力され、人物92aの会話音声(「Hi!」)はスピーカ65Rから強調されて音声出力される。
 図32は、図31(B)に示す映像データが表示されている状態において、ディスプレイ63に表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスOPBが表示される様子を示す図である。例えば、ディスプレイ63に図31(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、スピーカ65L又は65Rから音声出力される音声のパラメータ(例えば、音量レベル)を調整するための調整用操作ボックスOPBを、ディスプレイ63に表示させる。なお、調整用操作ボックスOPBは、例えば音量レベルの調整に用いられるとして説明しているが、他には、音声出力時のイコライザの設定の調整や、有指向音声と無指向音声との切り替えの調整に用いられても良い。
 なお、ユーザが第1の識別形状91Mを選択した状態で、調整用操作ボックスOPBの「+」ボタンを複数回押下すると、スピーカ65Lから音声出力されている人物91aの会話音声が更に大きく音声出力される。一方、ユーザが第2の識別形状の92Mを選択した状態で、調整用操作ボックスOPBの「-」ボタンを複数回押下すると、スピーカ65Rから音声出力されている人物92aの会話音声が更に小さく音声出力される。
 なお、第1の識別形状91M、第2の識別形状92Mは、両方とも実線であるが、色が異なることで区別されていたが、例えば色は同じであって実線と点線とにより区別されても良い(図33(B)参照)。図33(A)は、第4の実施形態の音声処理システム5Dの使用例の説明図である。図33(B)は、第1の指定箇所の周囲に表示される第1の識別形状91N、第2の指定箇所の周囲に表示される第2の識別形状92Nの一例を表示する様子と、第1の識別形状91Nにより特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調して第1のスピーカ65Lから出力する様子と、第2の識別形状92Nにより特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調して第2のスピーカ65Rから出力する様子とを示す図である。
 なお、図33(A)は図31(A)と同様であるため、図33(A)の説明は割愛する。更に、図31(B)では識別形状91M,92Mの色が異なっており両方とも実線であったが、図33(B)では識別形状91N,92Nの色は同一であって、更に一方(第1の識別形状91N)が実線であり他方(第2の識別形状92N)が点線であること以外は、図33(B)と図31(B)との違いは無いので、図33(B)の説明も割愛する。
 図34は、図31(B)に示す映像データが表示されている状態において、ディスプレイ63に表示された映像データの表示領域外へのクリック操作毎に、全方位カメラ10Eにより撮像された映像データと調整用操作ボックスOPBとを切り替えて表示する様子を示す図である。例えば、ディスプレイ63に図31(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、全方位カメラ10Eにより撮像された映像データの画面を調整用操作ボックスOPBに切り替えてディスプレイ63に表示させる。
 反対に、ディスプレイ63に調整用操作ボックスOPBが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、調整用操作ボックスOPBを、全方位カメラ10Eにより撮像された映像データの画面に切り替えてディスプレイ63に表示させる。なお、調整用操作ボックスOPBと全方位カメラ10Eにより撮像された映像データの画面との切り替えは、カーソルMPTの映像データの表示領域外におけるクリック操作により実行されると説明したが、クリック操作に限定されず、所定の入力操作により実行されても良い。所定の入力操作とは、例えばユーザがキーボードの異なる複数の特定キーを同時に押下した操作等である。
 図35は、図31(B)に示す映像データが表示されている状態において、ディスプレイ63に表示された映像データの表示領域外へのクリック操作に応じて、状態標示用ボックスINDが表示される様子を示す図である。例えば、ディスプレイ63に図31(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、スピーカ65L又は65Rから音声出力されている音声のパラメータ(例えば、音量レベル)の状態を標示するための状態標示用ボックスINDを、ディスプレイ63に表示させる。
 なお、ユーザは状態標示用ボックスINDに対して操作することはできないが、ディスプレイ63に表示されたいずれかの識別形状がユーザにより指定されると、指定された識別形状に対応する人物の音声の音量レベルの内容が状態標示用ボックスINDにより視覚的に明示される。また、状態標示用ボックスINDの内容を変更するためには、例えばユーザが、第1の識別形状91Mを選択した状態で、他の操作部(例えばキーボード)の特定キーを押下することで、スピーカ65Lから音声出力されている人物91aの会話音声の音量レベルを大きく又は小さくした結果又はその結果に至る過程が状態標示用ボックスINDにおいて視覚的に明示される。なお、状態標示用ボックスINDは、例えば音量レベルの状態を標示するとして説明しているが、他には、音声出力時のイコライザの設定内容や、有指向音声と無指向音声との切り替えの状態の標示に用いられても良い。また、状態標示用ボックスINDは、ディスプレイ63において常に表示されても良い。
(第2の指定方法及び音声出力方法の組み合わせ)
 第2の指定方法は、例えばキーボードの数字キーの押下操作とマウスの左クリック操作とにより、指定箇所を指定する方法である。第2の音声出力方法は、全ての指定箇所の音声データを両方のスピーカから音声出力する合成モノラル2ch(チャンネル)出力方法である。
 図36(A)は、第4の実施形態の音声処理システム5Dの使用例の説明図である。図36(B)は、第1の指定箇所の周囲に表示される第1の識別形状91K、第2の指定箇所の周囲に表示される第2の識別形状92K、第3の指定箇所の周囲に表示される第3の識別形状93K、第4の指定箇所の周囲に表示される第4の識別形状94Kの一例を表示する様子と、第1の識別形状91Kにより特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調した音声データと、第2の識別形状92Kにより特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調した音声データと、第3の識別形状93Kにより特定される第3の指定箇所に対応する第3の音声位置に向かう第3の指向方向の音声を強調した音声データとを、第1及び第2の各スピーカ65L,65Rから出力する様子を示す図である。なお、図36(A)は図31(A)と同様であるため、図36(A)の説明は割愛する。
 ユーザは、例えばディスプレイ63の画面68(図36(B)参照)に表示された人物91aの頭上付近を操作部55(例えばキーボードの数字「1」キーの押下とマウスの左クリック)の同時操作、人物92aの頭上付近を操作部55(例えばキーボードの数字「2」キーの押下とマウスの左クリック)の同時操作、人物93aの頭上付近を操作部55(例えばキーボードの数字「3」キーの押下とマウスの左クリック)の同時操作、人物94aの頭上付近を操作部55(例えばキーボードの数字「4」キーの押下とマウスの左クリック)の同時操作により、それぞれ連続的に指定したとする。数字キーの押下と左クリックの各操作により指定された各箇所は、ユーザにより指定された複数の指定箇所となる。信号処理部50は、複数の指定箇所が指定された場合に、各指定箇所を適正に区別するために、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示させる。
 具体的には、信号処理部50は、数字「1」キーの押下操作と左クリック操作により指定された人物91aの周囲に、人物91aが指定されたことを視覚的に明示するための識別形状91Kを表示させ、数字「2」キーの押下操作と左クリック操作により指定された人物92aの周囲に、人物92aが指定されたことを視覚的に明示するための識別形状92Kを表示させ、数字「3」キーの押下操作と左クリック操作により指定された人物93aの周囲に、人物93aが指定されたことを視覚的に明示するための識別形状93Kを表示させ、数字「4」キーの押下操作と左クリック操作により指定された人物94aの周囲に、人物94aが指定されたことを視覚的に明示するための識別形状94Kを表示させる。識別形状91K,92K,93K,94Kは、例えば黒色の矩形であるが、色や形状は黒色、矩形に限定されない。
 また、信号処理部50は、マイクアレイ20Cによって収音された音声の音声データを用いて、マイクアレイ20Cの設置位置から、ユーザが指定した4つの指定箇所に対応する各音声位置に向かう各指向方向(図36(A)に示す符号e1,e2,e3で示される方向)に指向性を形成した各音声データを生成して合成する。再生部60は、全方位カメラ10Eが撮像した映像データと同期させて、識別形状91Kにより特定される第1の指向方向(図36(A)に示す符号e1参照)の音声を強調した音声データと、識別形状92Kにより特定される第2の指向方向(図36(A)に示す符号e2参照)の音声を強調した音声データと、識別形状93Kにより特定される第3の指向方向(図36(A)に示す符号e3参照)の音声を強調した音声データとを合成した音声データを、スピーカ65L,65Rから音声出力する。従って、人物91aの会話音声(「Hello」)、人物92aの会話音声(「Hi!」)、人物93aの会話音声(「Good morning!」)はスピーカ65L,65Rから強調されて音声出力される。なお、図36(A)では人物94aは声を出していない状態が図示されているので、スピーカ65L,65Rから人物94aの会話音声は強調して音声出力されていないが、例えば人物94aが声を出している場合には、人物94aの会話音声もスピーカ65L,65Rから音声出力される。
 図37は、図36(B)に示す映像データが表示されている状態において、キーボードの複数の特定キーの同時押下操作に応じて、調整用操作ボックスOPBが表示される様子を示す図である。例えば、ディスプレイ63に図36(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばキーボードの「Shift」キーと数字「1」キー)の同時押下操作を行ったとする。信号処理部50は、ユーザの同時押下操作に応じて、スピーカ65L又は65Rから音声出力される音声の音量レベルを調整するための調整用操作ボックスOPBを、ディスプレイ63に表示させる。
 図39は、図36(B)に示す映像データが表示されている状態において、ディスプレイ63に表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスOPBが表示される様子を示す図である。例えば、ディスプレイ63に図36(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、スピーカ65L又は65Rから音声出力される音声の音量レベルを調整するための調整用操作ボックスOPBを、ディスプレイ63に表示させる。
(第3の指定方法及び音声出力方法の組み合わせ)
 第3の指定方法は、例えばタッチパネルが設けられたディスプレイ63、又はタッチパネルとは異なるタッチデバイス(例えばタッチパッド)に対するユーザの指若しくはスタイラスペンによる異なる識別形状の描画操作により、指定箇所を指定する方法である。第3の音声出力方法は、ユーザにより指定された1つ又は複数の指定箇所の音声データを一方のスピーカから音声出力し、同様にユーザにより指定された1つ又は複数の指定箇所の音声データを他方のスピーカから音声出力する合成ステレオ2ch(チャンネル)出力方法である。以下、説明を分かり易くするために、タッチパネルが設けられたディスプレイ63に対するユーザの描画操作により、指定箇所が指定されるとして説明する。
 図39(A)は、第4の実施形態の音声処理システム5Dの使用例の説明図である。図39(B)は、第1の指定箇所の周囲に表示される第1の識別形状91L、第2の指定箇所の周囲に表示される第2の識別形状92L、第3の指定箇所の周囲に表示される第3の識別形状93L、第4の指定箇所の周囲に表示される第4の識別形状94Lの一例を表示する様子と、第1の識別形状91Lにより特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調した音声データと、第2の識別形状92Lにより特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調した音声データとを合成して第1のスピーカ65Lから出力する様子と、第3の識別形状93Lにより特定される第3の指定箇所に対応する第3の音声位置に向かう第3の指向方向の音声を強調した音声データを第2のスピーカ65Rから出力する様子を示す図である。なお、図39(A)は図31(A)と同様であるため、図39(A)の説明は割愛する。
 ユーザは、例えばディスプレイ63の画面68(図40(B)参照)に表示された人物91aの頭上付近のタッチ及びドラッグによる丸形状の描画操作、人物92aの頭上付近のタッチ及びドラッグによる矩形形状の描画操作、人物93aの頭上付近のタッチ及びドラッグによる三角形状の描画操作、人物94aの頭上付近のタッチ及びドラッグによる六角形状の描画操作により、それぞれ連続的に指定したとする。タッチ及びドラッグによる各形状の描画操作により指定された各箇所は、ユーザにより指定された複数の指定箇所となる。信号処理部50は、複数の指定箇所が指定された場合に、各指定箇所を適正に区別するために、指定箇所毎に異なる描画操作により描かれた形状を識別形状として各指定箇所の周囲に表示させる。
 具体的には、信号処理部50は、丸形状の描画操作により指定された人物91aの周囲に、人物91aが指定されたことを視覚的に明示するための識別形状91Lを表示させ、矩形形状の描画操作により指定された人物92aの周囲に、人物92aが指定されたことを視覚的に明示するための識別形状92Lを表示させ、三角形状の描画操作により指定された人物93aの周囲に、人物93aが指定されたことを視覚的に明示するための識別形状93Lを表示させ、六角形状の描画操作により指定された人物94aの周囲に、人物94aが指定されたことを視覚的に明示するための識別形状94Lを表示させる。識別形状91K,92K,93K,94Kは、あくまで一例であり各形状に限定されず、図39(B)では各識別形状は点線により図示されているが、点線に限定されず、例えば実線により図示されても良い。
 また、信号処理部50は、マイクアレイ20Cによって収音された音声の音声データを用いて、マイクアレイ20Cの設置位置から、ユーザが指定した4つの指定箇所に対応する各音声位置に向かう各指向方向(図39(A)に示す符号e1,e2,e3で示される方向)に指向性を形成した各音声データを生成して合成する。再生部60は、例えばディスプレイ63の中央から左側の表示領域において描画された識別形状91L,92Lを1つの音声出力グループとしてグルーピングし、全方位カメラ10Eが撮像した映像データと同期させて、識別形状91Lにより特定される第1の指向方向(図39(A)に示す符号e1参照)の音声を強調した音声データと、識別形状92Lにより特定される第2の指向方向(図39(A)に示す符号e2参照)の音声を強調した音声データとを合成した音声データを、スピーカ65Lから音声出力する。更に、再生部60は、例えばディスプレイ63の中央から右側の表示領域において描画された識別形状93Lを1つの音声出力グループとしてグルーピングし、全方位カメラ10Eが撮像した映像データと同期させて、識別形状93Lにより特定される第3の指向方向(図39(A)に示す符号e3参照)の音声を強調した音声データを、スピーカ65Rから音声出力する。従って、人物91aの会話音声(「Hello」)、人物92aの会話音声(「Hi!」)はスピーカ65Lから強調されて音声出力され、人物93aの会話音声(「Good morning!」)はスピーカ65Rから強調されて音声出力される。なお、図36(A)では人物94aは声を出していない状態が図示されているので、スピーカ65L,65Rから人物94aの会話音声は強調して音声出力されていないが、例えば人物94aが声を出している場合には、人物94aの会話音声もスピーカ65L,65Rから音声出力される。
 また、上述した説明では、再生部60が、ディスプレイ63の中央からの左側の表示領域と右側の表示領域とに表示されている識別形状の集合を区分した上で音声出力グループをそれぞれ形成する場合を説明したが、このやり方に限定されない。例えば、ユーザが音声出力グループを任意に指定しても良い。例えば、第1の識別形状91Lと第3の識別形状93Lとがスピーカ65Lから音声出力させるための1つの音声出力グループとして指定され、第2の識別形状92Lがスピーカ65Rから音声出力させるための1つの音声出力グループとして指定されても良い。この場合、再生部60は、全方位カメラ10Eが撮像した映像データと同期させて、識別形状91Lにより特定される第1の指向方向(図39(A)に示す符号e1参照)の音声を強調した音声データと、識別形状93Lにより特定される第3の指向方向(図39(A)に示す符号e3参照)の音声を強調した音声データとを合成した音声データを、スピーカ65Lから音声出力する。更に、再生部60は、全方位カメラ10Eが撮像した映像データと同期させて、識別形状92Lにより特定される第2の指向方向(図39(A)に示す符号e2参照)の音声を強調した音声データを、スピーカ65Rから音声出力する。従って、人物91aの会話音声(「Hello」)、人物93aの会話音声(「Good morning!」)はスピーカ65Lから強調されて音声出力され、人物92aの会話音声(「Hi!」)はスピーカ65Rから強調されて音声出力される。
 図40は、図39(B)に示す映像データが表示されている状態において、タッチパネルが設けられたディスプレイ63に表示された映像データの表示領域外へのタッチに応じて、調整用操作ボックスOPBが表示される様子を示す図である。例えば、タッチパネルが設けられたディスプレイ63に図39(B)に示す映像データが表示されている場合に、ユーザが、映像データの表示領域外をタッチしたとする。信号処理部50は、ユーザのタッチに応じて、スピーカ65L又は65Rから音声出力される音声の音量レベルを調整するための調整用操作ボックスOPBを、ディスプレイ63に表示させる。
 以上により、第4の実施形態では、信号処理部50は、ディスプレイ63に表示された映像データに対して、ユーザが異なる複数(例えば2箇所)の指定箇所を指定した場合に、映像データ中の異なる各指定箇所に、異なる識別形状(例えば識別形状91L,92L)を表示させる。
 これにより、音声処理システム5Dは、ディスプレイ63に表示された映像データにおいて、ユーザにより指定された異なる複数の指定箇所を区別して認識することができ、区別した各指定箇所に異なる識別形状として、例えば一方の指定箇所の周囲に矩形の識別形状91Lを表示し、他方の指定箇所の周囲に丸の識別形状92Lを表示することで、複数の指定箇所を区別して認識したことを視覚的にユーザに対して明示することができる。
 また、音声処理システム5Dには、例えば2つのスピーカが設けられ、再生部60は、マイクアレイ20から第1の指定箇所に対応する位置(第1の音声位置)に向かう第1の指向方向の音声を強調した第1の音声データを第1のスピーカ65Lから音声出力させ、マイクアレイ20から第2の指定箇所に対応する位置(第2の音声位置)に向かう第2の指向方向の音声を強調した第2の音声データを第2のスピーカ65Rから音声出力させる。
 これにより、音声処理システム5Dは、例えば2つのスピーカが設けられている場合に、指定箇所毎に、マイクアレイ20から各指定箇所に対応する音声位置に向かう指向方向の音声を強調した各音声データを、各スピーカ65L,65Rから独立して音声出力させることができる。
 以下、上述した本発明に係る音声処理システム及び音声処理方法の構成、作用及び効果を説明する。
 本発明の一実施形態は、映像を撮像する少なくとも1つの撮像部と、前記撮像部により撮像された映像データを表示する表示部と、複数のマイクロホンを含み、前記マイクロホンを用いて音声を収音する収音部と、前記収音部により収音された音声データを音声出力する音声出力部と、前記撮像部により撮像された前記映像データと、前記収音部により収音された前記音声データとを記録する記録部と、前記記録部に記録された前記映像データを前記表示部に表示させ、前記記録部に記録された前記音声データを前記音声出力部に音声出力させる再生部と、前記表示部に表示された前記映像データの1つ以上の指定箇所の指定を受け付ける操作部と、前記記録部に記録された前記音声データを基に、前記収音部から、指定された前記映像データの1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する信号処理部と、を備える音声処理システムである。
 この構成によれば、音声処理システムは、既に記録された映像データの再生中に操作部からの所定の指定箇所の指定に応じて、マイクアレイの各マイクロホンが収音した各音声データを用いて、マイクアレイから1つ以上の指定箇所に対応する位置に向かう指向方向に指向性を形成した音声データを信号処理部において生成又は合成する。
 これにより、音声処理システムは、記録された映像データ及び音声データの再生中に、指定された任意の再生時間に対する映像中の音声データを強調して出力できる。
 また、本発明の一実施形態は、前記再生部が、前記収音部から、前記1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを前記音声出力部に音声出力させる、音声処理システムである。
 これにより、音声処理システムは、信号処理部によって、マイクアレイから1つ以上の指定箇所に対応する位置に向かう指向方向に指向性を形成した音声データを音声出力することができる。
 また、本発明の一実施形態は、前記撮像部は全方位カメラであり、前記信号処理部は、前記全方位カメラにより撮像された前記映像データが前記表示部に表示されている間に指定された前記1つ以上の指定箇所に応じて、前記1つ以上の指定箇所を含む映像データの座標系を画像変換し、前記再生部は、前記画像変換後の映像データを前記表示部に表示させ、前記収音部から、前記1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを音声出力させる、音声処理システムである。
 この構成によれば、音声処理システムは、全方位カメラにより撮像された映像データにおける被写体の位置とマイクアレイにより収音される被写体の人物の音声の方向とを対応付けるための座標系の変換処理を容易に行うことができ、カメラにより撮像された映像データと1つ以上の指定箇所に対応する位置に向かう指向方向に指向性が形成された音声データとを再生部において同期再生処理する場合の処理負荷を軽減できる。
 また、本発明の一実施形態は、前記撮像部と前記収音部とが、同軸上に配置される、音声処理システムである。
 これにより、音声処理システムは、音声処理システムにおける全方位カメラとマイクアレイとが同一の中心軸を有するように設置されるので、全方位カメラ10Eとマイクアレイ20Cとの座標系を同一にすることができる。
 また、本発明の一実施形態は、前記撮像部と前記収音部とが、室内の天井に配置される、音声処理システムである。
 これにより、音声処理システムの設置が簡易化できる。
 また、本発明の一実施形態は、前記信号処理部は、前記表示部に表示された前記映像データに対して異なる複数箇所の指定に応じて、前記映像データにおける各指定箇所に異なる識別形状を表示させる、音声処理システムである。
 この構成によれば、信号処理部は、ディスプレイに表示された映像データに対して、ユーザが異なる複数(例えば2箇所)の指定箇所を指定した場合に、映像データ中の異なる各指定箇所に、異なる識別形状を表示させる。
 これにより、音声処理システムは、ディスプレイに表示された映像データにおいて、ユーザにより指定された異なる複数の指定箇所を区別して認識することができ、区別した各指定箇所に異なる識別形状として、例えば一方の指定箇所の周囲に矩形の識別形状を表示し、他方の指定箇所の周囲に丸の識別形状を表示することで、複数の指定箇所を区別して認識したことを視覚的にユーザに対して明示することができる。
 また、本発明の一実施形態は、前記音声出力部が、第1の音声出力部と、第2の音声出力部とを含み、前記再生部が、前記収音部から第1の指定箇所に対応する位置に向かう第1の指向方向の音声を強調した第1の音声データを前記第1の音声出力部から音声出力させ、前記収音部から第2の指定箇所に対応する位置に向かう第2の指向方向の音声を強調した第2の音声データを前記第2の音声出力部から音声出力させる、音声処理システムである。
 この構成によれば、音声処理システムには例えば2つのスピーカが設けられ、再生部は、マイクアレイから第1の指定箇所に対応する位置(第1の音声位置)に向かう第1の指向方向の音声を強調した第1の音声データを第1のスピーカから音声出力させ、マイクアレイから第2の指定箇所に対応する位置(第2の音声位置)に向かう第2の指向方向の音声を強調した第2の音声データを第2のスピーカから音声出力させる。
 これにより、音声処理システムは、例えば2つのスピーカが設けられている場合に、指定箇所毎に、マイクアレイから各指定箇所に対応する音声位置に向かう指向方向の音声を強調した各音声データを、各スピーカから独立して音声出力させることができる。
 また、本発明の一実施形態は、前記音声出力部が、第1の音声出力部と、第2の音声出力部とを含み、前記再生部が、前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを前記第1の音声出力部から音声出力させ、前記収音部から残りの1つ以上の指定箇所に対応する位置に向かう残りの1つ以上の指向方向の音声を強調した音声データを前記第2の音声出力部から音声出力又は合成音声出力させる、音声処理システムである。
 この構成によれば、音声処理システムには例えば2つのスピーカが設けられ、再生部は、マイクアレイから異なる複数の指定箇所に対応する位置(例えば第1,第2の各音声位置)に向かう第1,第2の各指向方向の音声を強調した音声データが合成された音声データを第1のスピーカから音声出力させ、更に、マイクアレイから残りの1つ以上の指定箇所に対応する位置(例えば第3の音声位置)に向かう残りの1つ以上の指向方向の音声を強調した音声データを第2のスピーカから音声出力させる。
 これにより、音声処理システムは、例えば2つのスピーカが設けられている場合に、マイクアレイから複数(例えば2つ)の指向方向の音声を強調した各音声データを合成して一方のスピーカから音声出力でき、更に他の指向方向の音声を強調した音声データを他方のスピーカから音声出力できる。
 また、本発明の一実施形態は、1つ以上の前記音声出力部を含み、前記再生部が、前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを、1つ以上の前記音声出力部から音声出力させる、音声処理システムである。
 この構成によれば、音声処理システムには例えば1つ以上のスピーカが設けられ、再生部は、マイクアレイから第1の指定箇所に対応する位置(第1の音声位置)に向かう第1の指向方向の音声を強調した第1の音声データと、マイクアレイから第2の指定箇所に対応する位置(第2の音声位置)に向かう第2の指向方向の音声を強調した第2の音声データと、マイクアレイから第3の指定箇所に対応する位置(第3の音声位置)に向かう第3の指向方向の音声を強調した第3の音声データとが合成された音声データを、1つ以上のスピーカから音声出力させる。
 これにより、音声処理システムは、例えば1つ以上のスピーカが設けられている場合に、マイクアレイから複数(例えば3つ)の指向方向の音声を強調した各音声データを合成してスピーカから音声出力でき、更に複数のスピーカが設けられている場合には合成された音声データを同時に音声出力できる。
 また、本発明の一実施形態は、前記信号処理部が、所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体を表示する、音声処理システムである。
 この構成によれば、音声処理システムは、所定の入力操作(例えばマウスの右クリック操作)又はディスプレイに表示された映像データの表示領域外への指定操作(例えばマウスの左クリック操作)により、スピーカから音声出力されている音声データのパラメータ(例えば、音量レベル)の調整操作を受け付ける調整操作用ボックスを簡易に表示することができる。
 また、本発明の一実施形態は、前記信号処理部が、常に、若しくは所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ状態標示用媒体を表示する、音声処理システムである。
 この構成によれば、音声処理システムは、常に、若しくは所定の入力操作(例えばマウスの右クリック操作)又はディスプレイに表示された映像データの表示領域外への指定操作(例えばマウスの左クリック操作)により、スピーカから音声出力されている音声データのパラメータ(例えば、音量レベル)の状態を標示するインジケータとしての状態標示用ボックスを簡易に表示することができる。
 また、本発明の一実施形態は、前記信号処理部が、所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作毎に、前記撮像部により撮像された映像データ、又は前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体に切り替えて前記表示部に表示させる、音声処理システムである。
 この構成によれば、音声処理システムは、所定の入力操作又はディスプレイに表示された映像データの表示領域外への指定操作(例えばマウスの左クリック操作)毎に、カメラにより撮像された映像データ、又はスピーカから音声出力されている音声データのパラメータ(例えば、音量レベル)の調整操作を受け付ける調整操作用ボックスを簡易に切り替えて表示することができる。
 また、本発明の一実施形態は、前記信号処理部が、前記表示部に表示された前記映像データの指定箇所を中心に含む所定形状の描画操作に応じて、前記収音部から前記指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する、音声処理システムである。
 この構成によれば、音声処理システムは、ディスプレイに表示された映像データの指定箇所を中心に含む所定形状(例えば矩形形状)を描く簡易な描画操作(例えばタッチ操作とタッチ操作した状態でのスライド操作)により、マイクアレイから指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成することができる。
 また、本発明の一実施形態は、前記信号処理部が、前記指定箇所毎に表示された前記識別形状の再指定に応じて、前記収音部から再指定された前記識別形状が表示された指定箇所に対応する位置に向かう指向方向の音声の強調を中止した音声データを生成又は合成する、音声処理システムである。
 この構成によれば、音声処理システムは、指定箇所毎に表示された識別形状が再指定されると、マイクアレイから再指定された識別形状が表示された指定箇所に対応する位置に向かう指向方向の音声の強調を中止した音声データを簡易に生成又は合成することができる。
 また、本発明の一実施形態は、少なくとも1つの撮像部において映像を撮像するステップと、複数のマイクロホンを含む収音部において音声を収音するステップと、前記撮像部により撮像された映像データを表示部に表示させるステップと、前記撮像部により撮像された映像データと前記収音部により収音された音声データとを記録するステップと、記録された前記映像データを前記表示部に表示させ、記録された前記音声データを音声出力部に音声出力させるステップと、前記表示部に表示された前記映像データの1つ以上の指定箇所の指定を受け付けるステップと、記録された前記音声データを基に、前記収音部から、指定された前記映像データの1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成するステップと、を有する、音声処理方法である。
 この方法によれば、音声処理システムは、既に記録された映像データの再生中に操作部からの所定の指定箇所の指定に応じて、マイクアレイの各マイクロホンが収音した各音声データを用いて、マイクアレイから1つ以上の指定箇所に対応する位置に向かう指向方向に指向性を形成した音声データを信号処理部において生成又は合成する。
 これにより、音声処理システムは、記録された映像データ及び音声データの再生中に、指定された任意の再生時間に対する映像中の音声データを強調して出力できる。
 以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
 なお、本出願は、2012年12月27日出願の日本特許出願(特願2012-285862)及び2013年12月5日出願の日本特許出願(特願2013-252468)に基づくものであり、その内容は本出願の中に参照として援用される。
 本発明は、撮像された映像データが表示された表示画面の中で指定された1つ以上の指定箇所に対応する位置に向かう指向方向の音声データを強調して出力する音声処理システム及び音声処理方法として有用である。
 5A、5B、5C、5D 音声処理システム
 10、10A、10B、10C カメラ
 10E 全方位カメラ
 20、20A、20C、20D、20E、20F マイクアレイ
 22、22A、22B、22C、22D、22E、22F、22a、22b、22c、22n-1、22n マイクロホン
 30、30A ネットワーク
 40 音声処理装置
 45、45A レコーダ
 50、71 信号処理部
 51a、51b、51c、51n-1、51n A/D変換器
 52a、52b、52c、52n-1、52n 遅延器
 55、78 操作部
 57 加算器
 60、60A、60B 再生部
 63、73 ディスプレイ
 65、75、82、83 スピーカ
 101 メイン筐体
 103 パンチングメタルカバー
 105 マイク板金
 107 ベース板金
 111 環状底部
 113 マイク穴
 117 メイン筐体外周壁
 127 マイク基板
 129 マイク筐体
 133 環状天板部
 135 ベース板金外周壁
 139 メイン基板
 141 電源基板
 143 嵌合部
 145 外側挟持片
 147 内側挟持片
 149 間隙

Claims (15)

  1.  映像を撮像する少なくとも1つの撮像部と、
     前記撮像部により撮像された映像データを表示する表示部と、
     複数のマイクロホンを含み、前記マイクロホンを用いて音声を収音する収音部と、
     前記収音部により収音された音声データを音声出力する音声出力部と、
     前記撮像部により撮像された前記映像データと、前記収音部により収音された前記音声データとを記録する記録部と、
     前記記録部に記録された前記映像データを前記表示部に表示させ、前記記録部に記録された前記音声データを前記音声出力部に音声出力させる再生部と、
     前記表示部に表示された前記映像データの1つ以上の指定箇所の指定を受け付ける操作部と、
     前記記録部に記録された前記音声データを基に、前記収音部から、指定された前記映像データの1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する信号処理部と、を備える、
     音声処理システム。
  2.  請求項1に記載の音声処理システムであって、
     前記再生部は、前記収音部から、前記1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを前記音声出力部に音声出力させる、
     音声処理システム。
  3.  請求項1に記載の音声処理システムであって、
     前記撮像部は全方位カメラであり、
     前記信号処理部は、前記全方位カメラにより撮像された前記映像データが前記表示部に表示されている間に指定された前記1つ以上の指定箇所に応じて、前記1つ以上の指定箇所を含む映像データの座標系を画像変換し、
     前記再生部は、前記画像変換後の映像データを前記表示部に表示させ、前記収音部から、前記1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを音声出力させる、
     音声処理システム。
  4.  請求項1に記載の音声処理システムであって、
     前記撮像部と前記収音部とが、同軸上に配置される、
     音声処理システム。
  5.  請求項1~4のうちいずれか一項に記載の音声処理システムであって、
     前記撮像部と前記収音部とが、室内の天井に配置される、
     音声処理システム。
  6.  請求項1に記載の音声処理システムであって、
     前記信号処理部は、前記表示部に表示された前記映像データに対して異なる複数箇所の指定に応じて、前記映像データにおける各指定箇所に異なる識別形状を表示させる、
     音声処理システム。
  7.  請求項6に記載の音声処理システムであって、
     前記音声出力部は、第1の音声出力部と、第2の音声出力部とを含み、
     前記再生部は、
     前記収音部から第1の指定箇所に対応する位置に向かう第1の指向方向の音声を強調した第1の音声データを前記第1の音声出力部から音声出力させ、
     前記収音部から第2の指定箇所に対応する位置に向かう第2の指向方向の音声を強調した第2の音声データを前記第2の音声出力部から音声出力させる、
     音声処理システム。
  8.  請求項6に記載の音声処理システムであって、
     前記音声出力部は、第1の音声出力部と、第2の音声出力部とを含み、
     前記再生部は、
     前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを前記第1の音声出力部から音声出力させ、
     前記収音部から残りの1つ以上の指定箇所に対応する位置に向かう残りの1つ以上の指向方向の音声を強調した音声データを前記第2の音声出力部から音声出力又は合成音声出力させる、
     音声処理システム。
  9.  請求項6に記載の音声処理システムであって、
     1つ以上の前記音声出力部を含み、
     前記再生部は、
     前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを、1つ以上の前記音声出力部から音声出力させる、
     音声処理システム。
  10.  請求項6に記載の音声処理システムであって、
     前記信号処理部は、
     所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体を表示する、
     音声処理システム。
  11.  請求項6に記載の音声処理システムであって、
     前記信号処理部は、
     常に、若しくは所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ状態標示用媒体を表示する、
     音声処理システム。
  12.  請求項6に記載の音声処理システムであって、
     前記信号処理部は、
     所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作毎に、前記撮像部により撮像された映像データ、又は前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体に切り替えて前記表示部に表示させる、
     音声処理システム。
  13.  請求項6に記載の音声処理システムであって、
     前記信号処理部は、
     前記表示部に表示された前記映像データの指定箇所を中心に含む所定形状の描画操作に応じて、前記収音部から前記指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する、
     音声処理システム。
  14.  請求項6に記載の音声処理システムであって、
     前記信号処理部は、
     前記指定箇所毎に表示された前記識別形状の再指定に応じて、前記収音部から再指定された前記識別形状が表示された指定箇所に対応する位置に向かう指向方向の音声の強調を中止した音声データを生成又は合成する、
     音声処理システム。
  15.  少なくとも1つの撮像部において映像を撮像するステップと、
     複数のマイクロホンを含む収音部において音声を収音するステップと、
     前記撮像部により撮像された映像データを表示部に表示させるステップと、
     前記撮像部により撮像された映像データと前記収音部により収音された音声データとを記録するステップと、
     記録された前記映像データを前記表示部に表示させ、記録された前記音声データを音声出力部に音声出力させるステップと、
     前記表示部に表示された前記映像データの1つ以上の指定箇所の指定を受け付けるステップと、
     記録された前記音声データを基に、前記収音部から、指定された前記映像データの1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成するステップと、を有する、
     音声処理方法。
PCT/JP2013/007681 2012-12-27 2013-12-27 音声処理システム及び音声処理方法 WO2014103331A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201380068876.3A CN104904236B (zh) 2012-12-27 2013-12-27 声音处理系统以及声音处理方法
US14/654,944 US9826211B2 (en) 2012-12-27 2013-12-27 Sound processing system and processing method that emphasize sound from position designated in displayed video image
EP13868107.7A EP2941013B1 (en) 2012-12-27 2013-12-27 Sound processing system and sound processing method
US15/782,953 US10244219B2 (en) 2012-12-27 2017-10-13 Sound processing system and sound processing method that emphasize sound from position designated in displayed video image
US15/782,939 US10536681B2 (en) 2012-12-27 2017-10-13 Sound processing system and sound processing method that emphasize sound from position designated in displayed video image

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012285862 2012-12-27
JP2012-285862 2012-12-27
JP2013-252468 2013-12-05
JP2013252468A JP2014143678A (ja) 2012-12-27 2013-12-05 音声処理システム及び音声処理方法

Related Child Applications (3)

Application Number Title Priority Date Filing Date
US14/654,944 A-371-Of-International US9826211B2 (en) 2012-12-27 2013-12-27 Sound processing system and processing method that emphasize sound from position designated in displayed video image
US15/782,953 Continuation US10244219B2 (en) 2012-12-27 2017-10-13 Sound processing system and sound processing method that emphasize sound from position designated in displayed video image
US15/782,939 Continuation US10536681B2 (en) 2012-12-27 2017-10-13 Sound processing system and sound processing method that emphasize sound from position designated in displayed video image

Publications (1)

Publication Number Publication Date
WO2014103331A1 true WO2014103331A1 (ja) 2014-07-03

Family

ID=51020445

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/007681 WO2014103331A1 (ja) 2012-12-27 2013-12-27 音声処理システム及び音声処理方法

Country Status (5)

Country Link
US (3) US9826211B2 (ja)
EP (1) EP2941013B1 (ja)
JP (1) JP2014143678A (ja)
CN (1) CN104904236B (ja)
WO (1) WO2014103331A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016039407A (ja) * 2014-08-05 2016-03-22 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
JP2017537565A (ja) * 2015-07-31 2017-12-14 シャオミ・インコーポレイテッド 監視画面サウンド採集方法、装置、プログラムおよび記録媒体
US10063967B2 (en) 2016-03-22 2018-08-28 Panasonic Intellectual Property Management Co., Ltd. Sound collecting device and sound collecting method

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10321841B2 (en) 2010-05-26 2019-06-18 Flint Hills Scientific, Llc Quantitative multivariate analysis of seizures
JP2014143678A (ja) * 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
US9294839B2 (en) 2013-03-01 2016-03-22 Clearone, Inc. Augmentation of a beamforming microphone array with non-beamforming microphones
WO2016098315A1 (ja) 2014-12-15 2016-06-23 パナソニックIpマネジメント株式会社 マイクアレイ、監視システム及び収音設定方法
JP6344722B2 (ja) * 2014-12-15 2018-06-20 パナソニックIpマネジメント株式会社 マイクアレイ及び監視システム
US10225650B2 (en) 2014-12-22 2019-03-05 Panasonic Intellectual Property Management Co., Ltd. Directivity control system, directivity control device, abnormal sound detection system provided with either thereof and directivity control method
US9473687B2 (en) * 2014-12-23 2016-10-18 Ebay Inc. Modifying image parameters using wearable device input
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method
JP5939341B1 (ja) * 2015-07-14 2016-06-22 パナソニックIpマネジメント株式会社 モニタリングシステム及びモニタリング方法
JP6547496B2 (ja) * 2015-08-03 2019-07-24 株式会社リコー 通信装置、通信方法、プログラムおよび通信システム
JP6551155B2 (ja) * 2015-10-28 2019-07-31 株式会社リコー 通信システム、通信装置、通信方法およびプログラム
CN105657348A (zh) * 2015-12-30 2016-06-08 广州励丰文化科技股份有限公司 用于多麦克风场景下的自动监控方法及系统
CN105635681A (zh) * 2015-12-30 2016-06-01 广州励丰文化科技股份有限公司 穿戴设备与多麦克风场景下的监控方法及系统
JP6887102B2 (ja) 2016-02-29 2021-06-16 パナソニックIpマネジメント株式会社 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
JP6711118B2 (ja) * 2016-05-02 2020-06-17 株式会社リコー 画像管理システム、プログラム及び情報端末
CN117612539A (zh) * 2016-05-30 2024-02-27 索尼公司 视频音频处理设备、视频音频处理方法和存储介质
WO2018020965A1 (ja) 2016-07-28 2018-02-01 パナソニックIpマネジメント株式会社 無人飛行体検知システム及び無人飛行体検知方法
JP2018037944A (ja) * 2016-09-01 2018-03-08 ソニーセミコンダクタソリューションズ株式会社 撮像制御装置、撮像装置および撮像制御方法
JP6821390B2 (ja) * 2016-10-25 2021-01-27 キヤノン株式会社 音響処理装置、音響処理方法及びプログラム
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
JP2018159759A (ja) 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US10735882B2 (en) 2018-05-31 2020-08-04 At&T Intellectual Property I, L.P. Method of audio-assisted field of view prediction for spherical video streaming
JP2019211249A (ja) 2018-05-31 2019-12-12 パナソニック株式会社 飛行物体検知システムおよび飛行物体検知方法
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US10939030B2 (en) * 2018-09-07 2021-03-02 Canon Kabushiki Kaisha Video audio processing system and method of controlling the video audio processing system
GB201814988D0 (en) * 2018-09-14 2018-10-31 Squarehead Tech As Microphone Arrays
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
JP2022526761A (ja) 2019-03-21 2022-05-26 シュアー アクイジッション ホールディングス インコーポレイテッド 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
WO2020191354A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
CN114051738A (zh) 2019-05-23 2022-02-15 舒尔获得控股公司 可操纵扬声器阵列、系统及其方法
TW202105369A (zh) 2019-05-31 2021-02-01 美商舒爾獲得控股公司 整合語音及雜訊活動偵測之低延時自動混波器
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
JP6886118B2 (ja) * 2019-08-27 2021-06-16 富士通クライアントコンピューティング株式会社 情報処理装置およびプログラム
US11134042B2 (en) * 2019-11-15 2021-09-28 Scott C Harris Lets meet system for a computer using biosensing
CN110913307A (zh) * 2019-11-28 2020-03-24 歌尔科技有限公司 智能控制系统及智能音箱
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11166069B1 (en) * 2020-05-04 2021-11-02 International Business Machines Corporation Video content conversion
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统
US20230306698A1 (en) * 2022-03-22 2023-09-28 Plantronics, Inc. System and method to enhance distant people representation

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000209689A (ja) 1999-01-12 2000-07-28 Canon Inc サウンド処理装置およびその制御方法、並びに、記録媒体
JP2004180197A (ja) * 2002-11-29 2004-06-24 Canon Inc 情報処理装置、情報処理方法および記録媒体
JP2008193196A (ja) * 2007-02-01 2008-08-21 Casio Comput Co Ltd 撮像装置および指定音声出力方法
JP2008271157A (ja) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd 音声強調装置及び制御プログラム
JP2010213091A (ja) * 2009-03-11 2010-09-24 Ikegami Tsushinki Co Ltd 音源位置推定装置
JP2011071686A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理装置、映像音響処理方法及びプログラム
WO2011114610A1 (ja) * 2010-03-18 2011-09-22 パナソニック株式会社 全方位画像処理装置および全方位画像処理方法

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0454610A (ja) * 1990-06-25 1992-02-21 Kawai Musical Instr Mfg Co Ltd 出力制御装置
JP2742344B2 (ja) * 1991-10-09 1998-04-22 富士通株式会社 音声編集装置
CA2122371C (en) * 1992-08-27 1998-03-03 Osamu Okada Moving picture coding apparatus
JP3201051B2 (ja) * 1993-02-05 2001-08-20 ソニー株式会社 リモートコントロールシステム
EP0715743B1 (en) * 1993-08-25 2001-03-07 The Australian National University Panoramic imaging system
US6459451B2 (en) * 1996-06-24 2002-10-01 Be Here Corporation Method and apparatus for a panoramic camera to capture a 360 degree image
US6157403A (en) 1996-08-05 2000-12-05 Kabushiki Kaisha Toshiba Apparatus for detecting position of object capable of simultaneously detecting plural objects and detection method therefor
JP3537962B2 (ja) 1996-08-05 2004-06-14 株式会社東芝 音声収集装置及び音声収集方法
US6043837A (en) * 1997-05-08 2000-03-28 Be Here Corporation Method and apparatus for electronically distributing images from a panoptic camera system
JPH11146295A (ja) * 1997-11-11 1999-05-28 Fit:Kk 画像転送システム
US5940118A (en) * 1997-12-22 1999-08-17 Nortel Networks Corporation System and method for steering directional microphones
JPH11205772A (ja) * 1998-01-16 1999-07-30 Matsushita Joho System Kk 全方位撮像画像伝送システム及び全方位撮像画像伝送方法
JPH11331827A (ja) * 1998-05-12 1999-11-30 Fujitsu Ltd テレビカメラ装置
JP3195920B2 (ja) * 1999-06-11 2001-08-06 科学技術振興事業団 音源同定・分離装置及びその方法
US7028267B1 (en) * 1999-12-07 2006-04-11 Microsoft Corporation Method and apparatus for capturing and rendering text annotations for non-modifiable electronic content
US20020075295A1 (en) * 2000-02-07 2002-06-20 Stentz Anthony Joseph Telepresence using panoramic imaging and directional sound
US7002617B1 (en) 2000-07-20 2006-02-21 Robert Samuel Smith Coordinated audio and visual omnidirectional recording
JP4722347B2 (ja) * 2000-10-02 2011-07-13 中部電力株式会社 音源探査システム
JP3698420B2 (ja) * 2001-06-12 2005-09-21 シャープ株式会社 画像監視装置及び画像監視方法及び画像監視処理プログラム
JP4439763B2 (ja) * 2001-07-04 2010-03-24 株式会社リコー 画像録画再生システムおよび画像録画再生方法
US7068796B2 (en) * 2001-07-31 2006-06-27 Moorer James A Ultra-directional microphones
US20030160862A1 (en) * 2002-02-27 2003-08-28 Charlier Michael L. Apparatus having cooperating wide-angle digital camera system and microphone array
JP4100934B2 (ja) * 2002-02-28 2008-06-11 シャープ株式会社 複合カメラシステム、ズームカメラ制御方法およびズームカメラ制御プログラム
US20040095372A1 (en) * 2002-11-14 2004-05-20 International Business Machines Corporation System and method for progressive levels of user assistance information
US7298930B1 (en) * 2002-11-29 2007-11-20 Ricoh Company, Ltd. Multimodal access of meeting recordings
JP4269883B2 (ja) * 2003-10-20 2009-05-27 ソニー株式会社 マイクロホン装置、再生装置及び撮像装置
KR100884968B1 (ko) * 2003-12-24 2009-02-23 노키아 코포레이션 상보적 노이즈 분리 필터를 이용한 효율적 빔포밍 방법
US7893985B1 (en) * 2004-03-15 2011-02-22 Grandeye Ltd. Wide angle electronic camera with improved peripheral vision
JP4595364B2 (ja) * 2004-03-23 2010-12-08 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US8427538B2 (en) * 2004-04-30 2013-04-23 Oncam Grandeye Multiple view and multiple object processing in wide-angle video camera
KR100754385B1 (ko) * 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
JP4441879B2 (ja) * 2005-06-28 2010-03-31 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
US7884849B2 (en) * 2005-09-26 2011-02-08 Objectvideo, Inc. Video surveillance system with omni-directional camera
US20080247567A1 (en) * 2005-09-30 2008-10-09 Squarehead Technology As Directional Audio Capturing
EP1950954B1 (en) * 2005-11-11 2011-04-06 Sony Corporation Image processing device, image processing method, program thereof, recording medium containing the program, and imaging device
JP2007295335A (ja) 2006-04-26 2007-11-08 Opt Kk カメラ装置および画像記録再生方法
JP4686402B2 (ja) 2006-04-27 2011-05-25 オリンパスイメージング株式会社 カメラ、再生装置、再生制御方法
JP4175390B2 (ja) 2006-06-09 2008-11-05 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4795212B2 (ja) 2006-12-05 2011-10-19 キヤノン株式会社 録画装置、端末装置及び処理方法
JP5235070B2 (ja) 2007-11-08 2013-07-10 池上通信機株式会社 音監視装置
KR100934928B1 (ko) * 2008-03-20 2010-01-06 박승민 오브젝트중심의 입체음향 좌표표시를 갖는 디스플레이장치
JP5670016B2 (ja) 2008-07-22 2015-02-18 レノボ・イノベーションズ・リミテッド(香港) 表示装置、通信端末、表示装置の表示方法、および表示制御用プログラム
DE102008049921A1 (de) * 2008-09-29 2010-04-15 Mobotix Ag Verfahren zur Videodatenstrom-Erzeugung
US20100123785A1 (en) * 2008-11-17 2010-05-20 Apple Inc. Graphic Control for Directional Audio Input
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
PL2394444T3 (pl) * 2009-02-03 2014-04-30 Squarehead Tech As Konferencyjny system mikrofonowy
US20100254543A1 (en) * 2009-02-03 2010-10-07 Squarehead Technology As Conference microphone system
KR100988872B1 (ko) * 2009-07-08 2010-10-20 주식회사 나노포토닉스 회전 대칭형의 광각 렌즈를 이용하여 복합 영상을 얻는 방법과 그 영상 시스템 및 하드웨어적으로 영상처리를 하는 이미지 센서
US9094645B2 (en) * 2009-07-17 2015-07-28 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
KR101612704B1 (ko) * 2009-10-30 2016-04-18 삼성전자 주식회사 다중음원 위치 추적장치 및 그 방법
EP2519866B1 (en) * 2009-12-28 2018-08-29 Google Technology Holdings LLC Methods for associating objects on a touch screen using input gestures
JP2011211675A (ja) * 2010-03-29 2011-10-20 Keiji Miyazaki アムニディレクショナルと防犯・監視カメラ統合で死角無し
KR101232283B1 (ko) * 2010-07-13 2013-02-12 주식회사 금오하이텍 여닫이식 도어의 도어 완충기 결합형 경첩
JP4945675B2 (ja) * 2010-11-12 2012-06-06 株式会社東芝 音響信号処理装置、テレビジョン装置及びプログラム
US9036001B2 (en) * 2010-12-16 2015-05-19 Massachusetts Institute Of Technology Imaging system for immersive surveillance
US9007432B2 (en) * 2010-12-16 2015-04-14 The Massachusetts Institute Of Technology Imaging systems and methods for immersive surveillance
KR20120068205A (ko) * 2010-12-17 2012-06-27 현대중공업 주식회사 산적화물선의 화물 탱크
KR20120068212A (ko) * 2010-12-17 2012-06-27 에스케이하이닉스 주식회사 전기적 오버스트레스 보호 회로 및 그를 포함하는 반도체 집적회로
JP5857674B2 (ja) * 2010-12-22 2016-02-10 株式会社リコー 画像処理装置、及び画像処理システム
JP2012133250A (ja) * 2010-12-24 2012-07-12 Sony Corp 音情報表示装置、音情報表示方法およびプログラム
JP2012178807A (ja) * 2011-02-28 2012-09-13 Sanyo Electric Co Ltd 撮像装置
JP2012211675A (ja) 2011-03-31 2012-11-01 Nippon Brake Kogyo Kk ブレーキパッド
US20120317594A1 (en) * 2011-04-21 2012-12-13 Sony Mobile Communications Ab Method and system for providing an improved audio experience for viewers of video
US9973848B2 (en) * 2011-06-21 2018-05-15 Amazon Technologies, Inc. Signal-enhancing beamforming in an augmented reality environment
US9215328B2 (en) * 2011-08-11 2015-12-15 Broadcom Corporation Beamforming apparatus and method based on long-term properties of sources of undesired noise affecting voice quality
WO2013127618A1 (en) * 2012-02-29 2013-09-06 Thomson Licensing Solution for identifying a sound source in an image or a sequence of images
WO2013144417A1 (en) * 2012-03-29 2013-10-03 Nokia Corporation A method, an apparatus and a computer program for modification of a composite audio signal
JP5992210B2 (ja) * 2012-06-01 2016-09-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理システム、および情報処理方法
EP2680615B1 (en) * 2012-06-25 2018-08-08 LG Electronics Inc. Mobile terminal and audio zooming method thereof
US9007524B2 (en) * 2012-09-25 2015-04-14 Intel Corporation Techniques and apparatus for audio isolation in video processing
JP2014143678A (ja) * 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000209689A (ja) 1999-01-12 2000-07-28 Canon Inc サウンド処理装置およびその制御方法、並びに、記録媒体
JP2004180197A (ja) * 2002-11-29 2004-06-24 Canon Inc 情報処理装置、情報処理方法および記録媒体
JP2008193196A (ja) * 2007-02-01 2008-08-21 Casio Comput Co Ltd 撮像装置および指定音声出力方法
JP2008271157A (ja) * 2007-04-19 2008-11-06 Fuji Xerox Co Ltd 音声強調装置及び制御プログラム
JP2010213091A (ja) * 2009-03-11 2010-09-24 Ikegami Tsushinki Co Ltd 音源位置推定装置
JP2011071686A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理装置、映像音響処理方法及びプログラム
WO2011114610A1 (ja) * 2010-03-18 2011-09-22 パナソニック株式会社 全方位画像処理装置および全方位画像処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2941013A4

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016039407A (ja) * 2014-08-05 2016-03-22 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理方法
US9578413B2 (en) 2014-08-05 2017-02-21 Panasonic Intellectual Property Management Co., Ltd. Audio processing system and audio processing method
JP2017537565A (ja) * 2015-07-31 2017-12-14 シャオミ・インコーポレイテッド 監視画面サウンド採集方法、装置、プログラムおよび記録媒体
US10063967B2 (en) 2016-03-22 2018-08-28 Panasonic Intellectual Property Management Co., Ltd. Sound collecting device and sound collecting method

Also Published As

Publication number Publication date
US20180115760A1 (en) 2018-04-26
CN104904236B (zh) 2018-09-14
EP2941013A4 (en) 2015-11-04
EP2941013A1 (en) 2015-11-04
JP2014143678A (ja) 2014-08-07
US20150350621A1 (en) 2015-12-03
US10536681B2 (en) 2020-01-14
EP2941013B1 (en) 2020-05-27
US9826211B2 (en) 2017-11-21
US20180115759A1 (en) 2018-04-26
US10244219B2 (en) 2019-03-26
CN104904236A (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
WO2014103331A1 (ja) 音声処理システム及び音声処理方法
US11838707B2 (en) Capturing sound
JP6202277B2 (ja) 音声処理システム及び音声処理方法
JP2016146547A (ja) 収音システム及び収音方法
WO2015162645A1 (ja) 音声処理装置、音声処理システム、及び音声処理方法
JP2008543143A (ja) 音響変換器のアセンブリ、システムおよび方法
JP6145736B2 (ja) 指向性制御方法、記憶媒体及び指向性制御システム
WO2017150103A1 (ja) 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法
JP6504539B2 (ja) 収音システム及び収音設定方法
JP5853181B2 (ja) 収音装置
US20220225049A1 (en) An apparatus and associated methods for capture of spatial audio
CN113014844A (zh) 一种音频处理方法、装置、存储介质及电子设备
JP6425019B2 (ja) 異常音検出システム及び異常音検出方法
WO2015151130A1 (ja) 音声処理装置、音声処理システム、及び音声処理方法
Lin et al. Development of novel hearing aids by using image recognition technology
EP4221262A1 (en) Information processing device, information processing method, and program
CN118202641A (zh) 用于房间智能的会议系统及方法
JP2004180197A (ja) 情報処理装置、情報処理方法および記録媒体
CN113707165A (zh) 音频处理方法、装置及电子设备和存储介质
JP2016219965A (ja) 指向性制御システム及び音声出力制御方法
JP2016119620A (ja) 指向性制御システム及び指向性制御方法
JP7111202B2 (ja) 収音制御システム及び収音制御システムの制御方法
JP2015082734A (ja) 音声処理装置、音声処理システム、及び音声処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13868107

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2013868107

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14654944

Country of ref document: US