WO2016013740A1 - 멀티 채널 오디오 데이터의 시각화 장치 및 방법 - Google Patents

멀티 채널 오디오 데이터의 시각화 장치 및 방법 Download PDF

Info

Publication number
WO2016013740A1
WO2016013740A1 PCT/KR2015/000896 KR2015000896W WO2016013740A1 WO 2016013740 A1 WO2016013740 A1 WO 2016013740A1 KR 2015000896 W KR2015000896 W KR 2015000896W WO 2016013740 A1 WO2016013740 A1 WO 2016013740A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio data
audio
text
data
channel
Prior art date
Application number
PCT/KR2015/000896
Other languages
English (en)
French (fr)
Inventor
조성봉
Original Assignee
한화테크윈 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한화테크윈 주식회사 filed Critical 한화테크윈 주식회사
Publication of WO2016013740A1 publication Critical patent/WO2016013740A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the present invention relates to an apparatus and method for visualizing multi-channel audio data, and more particularly, to an apparatus and method for visualizing a specific word and phrase from audio data input through a plurality of network cameras in a surveillance system and outputting the same with an image. It is about.
  • Conventional surveillance system operation method is mainly a two-way audio operation that outputs the audio of the channel selected by the surveillance system administrator, the microphone input to the speaker installed in the camera, audio data is added to the surveillance system Has been utilized as an enemy.
  • the surveillance system manager may selectively listen to single or multi-channel audio when a specific event occurs while monitoring the multi-channel video.
  • the number of channels displayed on the central system monitor is usually 4 to 128, so when multiple channels of audio are output at the same time, it is difficult to distinguish which channel the sound is from. Because of this, there is a problem that it is difficult to clearly distinguish what sounds are.
  • An object of the present invention is to provide an apparatus and method for visualizing multi-channel audio data capable of identifying audio data corresponding to each channel in a surveillance system operated by a plurality of network cameras.
  • the multi-channel audio data visualization apparatus for solving the technical problem receives video data and audio data for each channel, the audio data frequency characteristics A data separating unit for separating the data, a pattern detecting unit detecting audio data identical or similar to a previously stored reference pattern from audio data separated by frequency characteristics, a converting unit converting the detected audio data into text corresponding to the reference pattern; And a metadata storage unit for storing audio data converted into text, video section information corresponding to audio data separated by frequency characteristics, and channel information as metadata of the video data.
  • the multi-channel audio data visualization method comprises the steps of receiving video data and audio data for each channel, frequency of the audio data Separating audio data by characteristics, detecting audio data identical or similar to a previously stored reference pattern from audio data separated by frequency characteristics, converting the detected audio data into text corresponding to the reference pattern, and converting the text into text And storing the converted audio data, video section information corresponding to audio data separated by frequency characteristics, and channel information as metadata of the video data.
  • the monitoring system by visualizing and expressing audio data, the monitoring system clearly identifies the occurrence of a specific event of each channel without selectively listening to audio of a specific channel. Can be detected separately.
  • the surveillance system can operate a higher-performance surveillance system that visualizes even a specific sound in the blind spot of the network camera.
  • FIG. 1 is a block diagram illustrating an apparatus for visualizing multichannel audio data according to an exemplary embodiment.
  • FIG. 2 is a flowchart illustrating a visualization method of multi-channel audio data according to an embodiment of the present invention.
  • FIG. 3 is a block diagram illustrating a network camera in which a visualization apparatus for multi-channel audio data is implemented, according to an exemplary embodiment.
  • FIG. 4 illustrates a monitor of a four-channel video surveillance system operating with an apparatus and method for visualizing multi-channel audio data according to an exemplary embodiment.
  • 5A is a block diagram illustrating a central system corresponding to the case where a network camera of a visualization apparatus for multi-channel audio data according to an embodiment of the present invention is implemented.
  • 5B is a block diagram illustrating a central system in which a visualization apparatus for multi-channel audio data is implemented, according to an embodiment of the present invention.
  • FIG. 6 is a detailed block diagram illustrating an internal configuration of a visualization apparatus for multi-channel audio data according to an exemplary embodiment.
  • FIG. 7 illustrates a monitor of a 9-channel video surveillance system operated by an apparatus or method for visualizing multichannel audio data according to an exemplary embodiment.
  • the multi-channel audio data visualization apparatus for solving the technical problem receives video data and audio data for each channel, the audio data frequency characteristics A data separating unit for separating the data, a pattern detecting unit detecting audio data identical or similar to a previously stored reference pattern from audio data separated by frequency characteristics, a converting unit converting the detected audio data into text corresponding to the reference pattern; And a metadata storage unit for storing audio data converted into text, video section information corresponding to audio data separated by frequency characteristics, and channel information as metadata of the video data.
  • the data separator may separate the audio data for each subject that generates audio.
  • the data separator may separate the audio data based on at least one of a predetermined frequency band, a gender frequency characteristic of the audio generator, an age-specific frequency characteristic of the audio generator, and a type of language.
  • the reference pattern may include at least one of a pattern for a predetermined voice, a pattern for a predetermined sound, and a pattern for disconnection of a predetermined audio.
  • the pattern for the predetermined voice may include a pattern for at least one of the words representing the gender, age, speech speed, voice level, and local color of the subject generating the voice.
  • the metadata storage unit may store at least one of video section information corresponding to audio data separated for each frequency characteristic and video section information corresponding to audio data converted into text.
  • the text may include information on at least one of gender, age, speech rate, voice level, origin region, subtitle corresponding to sound, and warning of the audio producer.
  • the display apparatus may further include a monitor configured to output the video data and the text for each channel, and the text may be output to correspond to the video data based on the channel information and the video section information.
  • the monitor may display the display area of the channel corresponding to the detected audio data in a size proportional to a predetermined priority of the detected audio data.
  • the reference pattern includes a type of a language to be a predetermined detection target and a type of a predetermined user language
  • the conversion unit converts the detected audio data into a type of a language to be the predetermined detection target
  • the text may be converted into at least one text among the types of the user language.
  • the multi-channel audio data visualization method comprises the steps of receiving video data and audio data for each channel, frequency of the audio data Separating audio data by characteristics, detecting audio data identical or similar to a previously stored reference pattern from audio data separated by frequency characteristics, converting the detected audio data into text corresponding to the reference pattern, and converting the text into text And storing the converted audio data, video section information corresponding to audio data separated by frequency characteristics, and channel information as metadata of the video data.
  • the step of separating the audio data by the frequency characteristics may be the step of separating the audio data by the subject generating the audio.
  • the separating of the audio data by the frequency characteristics may be performed based on at least one of a predetermined frequency band, a gender frequency characteristic of an audio generator, an age frequency characteristic of an audio generator, and a type of language.
  • the audio data may be separated.
  • the reference pattern may include at least one of a pattern for a predetermined voice, a pattern for a predetermined sound, and a pattern for disconnection of a predetermined audio.
  • the pattern for the predetermined voice may include a pattern for at least one of the words representing the gender, age, speech speed, voice level, and local color of the subject generating the voice.
  • the storing of the metadata of the video data may include storing at least one of video section information corresponding to audio data separated for each frequency characteristic and video section information corresponding to audio data converted into text. It may be a step.
  • the text may include information on at least one of gender, age, speech rate, voice level, origin region, subtitle corresponding to sound, and warning of the audio producer.
  • the method may further include outputting the video data and the text for each channel, and outputting the text to correspond to the video data based on the channel information and the video section information.
  • the method may further include determining a priority of the detected audio data, and outputting the video data and the text for each channel may include displaying a display area of a channel corresponding to the detected audio data. It may be a step of displaying in a size proportional to the priority.
  • the reference pattern may include a type of a language to be detected and a type of a predetermined user language
  • converting the detected audio data into text corresponding to the reference pattern may include:
  • the method may include converting the detected audio data into text of at least one of a type of a language to be detected and a type of the user language.
  • the functionality of the various elements shown in the figures, including functional blocks represented by a processor or similar concept, can be provided by the use of dedicated hardware as well as hardware capable of executing software in association with appropriate software.
  • the functionality may be provided by a single dedicated processor, by a single shared processor, or by a plurality of individual processors, some of which may be shared.
  • the use of terms presented in terms of processor, control, or similar concept should not be interpreted exclusively as a citation of hardware capable of executing software, and without limitation, ROM for storing digital signal processor (DSP) hardware, software. (ROM), RAM, and non-volatile memory are to be understood to implicitly include. Other well known hardware may also be included.
  • An event word which will be described later, is a word predefined in an audio setting unit implemented according to an embodiment of the present invention.
  • the event word When detected by a network camera, the event word is displayed as a caption on a monitor of a surveillance system remotely connected to the network camera. .
  • the 'multi-channel audio data visualization apparatus' to be described later may be briefly described as an 'audio text converter' for simplicity of the specification and drawings when implemented in a network camera or a central system.
  • FIG. 1 is a block diagram illustrating an apparatus for visualizing multichannel audio data according to an exemplary embodiment.
  • the apparatus for visualizing multi-channel audio data includes a data separator 110, a pattern detector 130, a converter 150, and a metadata storage 170. do.
  • the data separator 110 receives video data and audio data for each channel and separates the received audio data by frequency characteristics.
  • the data separator 110 may separate the audio data for each subject that generates audio.
  • the data separator 110 may separate the audio data based on at least one of a predetermined frequency band, a gender frequency characteristic of the audio generator, an age-specific frequency characteristic of the audio generator, and a type of language.
  • the pattern detector 130 detects audio data identical to or similar to a previously stored reference pattern from the audio data separated for each frequency characteristic through the data separator 110.
  • the reference pattern may include at least one of a pattern for a predetermined voice, a pattern for a predetermined sound, and a pattern for disconnection of a predetermined audio.
  • the pattern for the predetermined voice may include, but is not limited to, a pattern for at least one of a gender, age, speech speed, voice level, a word representing a local color, and a type of language of the subject who generates the voice.
  • the type of language may include at least one of a type of language to be detected and a predetermined user language, but is not limited thereto.
  • the user language may be set in advance by a user, for example, an administrator, but is not limited thereto.
  • the pattern for the predetermined sound may include, but is not limited to, a pattern for at least one of a frequency band of the sound, a magnitude of the sound, and a duration of the sound.
  • the pattern for disconnection of the predetermined audio may be a pattern for duration of silence, but is not limited thereto.
  • the converter 150 converts the audio data detected by the pattern detector 130 into text corresponding to a pre-stored reference pattern.
  • the converted text may include at least one of information characterizing the detected audio data and additional information.
  • the text may include, but is not limited to, information on at least one of a gender, an age, a speech speed, a voice level, a place of origin, a subtitle corresponding to a sound, and a warning of an audio producer.
  • the converter 150 may convert text into one or more languages.
  • the converting unit 150 may convert the detected audio data into at least one of a type of language, for example, English text and a user language, such as Korean text, but is not limited thereto.
  • the metadata storage unit 170 stores the audio data converted into the text as metadata of the video data together with the video section information and the channel information corresponding to the audio data separated for each frequency characteristic. According to the amount of event words included in the audio data, the video section information corresponding to the audio data separated for each frequency characteristic may be replaced with the video section information corresponding to the audio data converted into text. It will be described later through.
  • the apparatus for visualizing multi-channel audio data may simultaneously output video data and text for each channel through a monitor.
  • the visualization apparatus for multi-channel audio data may output video data and text to correspond to each other, based on channel information and video section information stored in the metadata storage unit 170 through a monitor. It is not limited to this.
  • the monitor may display the size of the display area for each channel equally or differently. For example, the monitor may display the display area of the channel corresponding to the detected audio data in a size proportional to a predetermined priority of the detected audio data.
  • FIG. 2 is a flowchart illustrating a visualization method of multi-channel audio data according to an embodiment of the present invention. In the following, description of the same contents as those in FIG. 1 is omitted.
  • the data separator 110 receives video data and audio data and separates the received audio data by frequency characteristics (S210).
  • the pattern detector 130 detects audio data identical or similar to a preset audio pattern from the audio data separated for each frequency characteristic (S230),
  • the converter 150 converts the detected audio data into text corresponding to the preset audio pattern (S250).
  • the metadata storage unit 170 outputs the video data for each channel along with the text corresponding to the video section, and outputs the video data and the channel information corresponding to the audio data converted into the text according to the audio data separated for each frequency characteristic.
  • the data is stored as metadata of the video data (S270).
  • FIG. 3 is a block diagram illustrating a network camera in which a visualization apparatus for multi-channel audio data is implemented, according to an exemplary embodiment.
  • the network camera 300 of the surveillance system may include an image sensor 310, a video encoder 320, a network interface 330, an audio sensor & microphone 340, and audio.
  • An encoder 350, an audio setting unit 360, an audio text converter 370, and an audio / text database 380 are included.
  • the image sensor 310 converts light incident through the lens of the network camera 300 into an image signal, and the video encoder 320 compresses the image signal.
  • the network interface 330 may include compressed video data and compressed audio data output by the video encoder 320 and the audio encoder 350 of the network camera 300, respectively, such as a network video recorder (NVR) and a digital video recorder (DVR). Or to a central system, such as a Central Monitoring System (CMS).
  • NVR network video recorder
  • DVR digital video recorder
  • CMS Central Monitoring System
  • the audio sensor & microphone 340 converts the sound input through the network camera 300 into audio data, and transmits the sound to the audio encoder 350 and the audio text converter 370. In this case, video section information corresponding to the audio data may also be transmitted.
  • the audio encoder 350 compresses the converted audio data with a voice codec such as G.711 and G.726 to be easily transmitted by the network interface 330.
  • the audio setting unit 360 presets information for determining the characteristics of the audio.
  • Information for determining the characteristics of the audio may include, but is not limited to, a frequency band, gender frequency characteristics of the audio producer, age frequency characteristics of the audio producer, language type, event word, and the like.
  • the audio setting unit 360 may preset an event word to be detected.
  • the audio setting unit 360 may set words such as 'bomb', 'threat' and 'terror' as event words.
  • the audio setting unit 360 may preset the type of the language to be detected and the type of the user language.
  • the audio text converter 370 which will be described later, converts the detected audio data into at least one of a type of the detected language and a type of the user language when the type of language to be detected in advance is detected from the audio data. It may be, but is not limited thereto.
  • the audio setting unit 360 may be included in the audio text converter 370 described later, but is not limited thereto.
  • the audio text converter 370 is a visualization apparatus of the multi-channel audio data according to an embodiment of the present invention, which is implemented in the network camera 300.
  • the audio text converter 370 stores the input audio data in the audio setting unit 360. Analyze using and separate by frequency characteristic and convert to text.
  • the audio data converted into text, video section information corresponding to the corresponding audio data, and channel information of the network camera 300 may be stored as metadata of the video data.
  • the audio / text database 380 updates the data by receiving a changed event word or the like from the monitoring system manager through the network interface 330.
  • the audio / text database 380 may be located inside or outside the network camera 300, but is not limited thereto.
  • FIG. 4 illustrates a monitor of a four-channel video surveillance system operating with an apparatus and method for visualizing multi-channel audio data according to an exemplary embodiment.
  • the word is displayed as a caption in the channel-02 area 402 of the monitor.
  • the word is displayed as a caption in the channel-03 area 403 of the monitor.
  • 'Money' When a predefined word 'Money' is detected through the network camera of channel-04, 'Money' is displayed as a subtitle in the channel-04 area 404 of the monitor together with a Korean translation (money) of the word.
  • the audio text converter 370 detects the detected audio using the information stored in the audio setting unit 360. Data can be displayed in English text and Korean text.
  • FIG. 5A is a block diagram illustrating a central system corresponding to a visualization apparatus of a multi-channel audio data according to an embodiment of the present invention when implemented in a network camera.
  • the central system 500 includes a video data receiver 505, a video decoder 510, a storage device 515, an audio text data receiver 520, an audio data receiver 525, and an audio decoder 530. ), A video multiplexer 535, a video output unit 540, and an audio output unit 545.
  • the central system 500 may receive compressed video data and compressed audio data from multiple network cameras 301a through Na.
  • the video data receiver 505 receives the compressed video data from the network camera 1 301a.
  • the network camera 1 301a may refer to a camera in which a visualization apparatus for multi-channel audio data is implemented according to an embodiment of the present invention.
  • the video data receiver 505 may deliver the compressed video data to the video decoder 510 and the storage 515, respectively.
  • the video decoder 510 decodes the compressed video data.
  • the video decoder 510 may deliver the decoded video data to the video multiplexer 535.
  • the storage device 515 receives and stores the compressed video data, the audio text data, and the compressed audio data from the video data receiver 505, the audio text data receiver 520, and the audio data receiver 525, respectively.
  • the storage device 515 not only stores data, but also delivers stored data as needed.
  • the audio text data receiver 520 receives the audio data converted into text from the network camera 1 301a, video section information corresponding to the audio data, and channel information of the network camera and transmits the received audio data to the storage device 515.
  • the audio text data receiver 520 may receive the compressed text data from the network camera 1 301a to facilitate remote transmission, and may also include a configuration for releasing the compressed text data.
  • the audio data receiver 525 receives the compressed audio data from the network camera 1 301a.
  • the audio data receiver 525 may deliver the compressed audio data to the audio decoder 530 and the storage device 515, respectively.
  • the audio decoder 530 decodes the compressed audio data.
  • the audio decoder 530 transfers the decoded audio data to the audio output unit 545.
  • the video multiplexer 535 configures a channel layout for output to the central system monitor using the decompressed video data transmitted from the video decoder 510, and the audio transmitted from the audio text data receiver 520. Map text data to the corresponding channel layout.
  • the video multiplexer 535 composes the channel layout evenly divided into 16 equal parts of the screen of the central system monitor, and the Arabic numerals and channel numbers in order. Can match.
  • the screen of the central system monitor may be configured with an uneven 16-channel layout, but is not limited thereto.
  • the video output unit 540 outputs the decompressed video data and the audio text data mapped to the channel layout through the video multiplexer 535 through the central system monitor.
  • the audio output unit 545 outputs the decompressed audio data through the audio decoder 530 through the speaker of the central system.
  • FIG. 5B is a block diagram illustrating a central system in which a visualization apparatus for multi-channel audio data is implemented, according to an embodiment of the present invention.
  • the network camera 1 301b illustrated in FIG. 5B may mean a camera on which a visualization apparatus for multi-channel audio data according to an embodiment of the present invention is not implemented, but is not limited thereto.
  • the network camera 1 301b may transmit the compressed video data and the compressed audio data to the central system 500.
  • the audio decoder 530 receives and decompresses (decodes) the compressed audio data from the audio data receiver 525 and converts the decompressed audio data into the audio output unit 545 and the audio text converter. 550 respectively.
  • the audio text converter 550 is a multi-channel audio data visualization apparatus according to an embodiment of the present invention implemented in the central system 500.
  • the audio text converter 550 separates audio data received from the audio decoder 530 according to frequency characteristics. Then convert it to text.
  • the audio data converted into text, the video section information corresponding to the audio data, and the channel information of the network camera may be stored as metadata of the video.
  • the audio text converter 550 may include an audio setting unit 360 (see FIG. 1), and the storage device 515 of FIG. 5B may include an audio / text database 380 (see FIG. 3). .
  • the apparatus for visualizing multi-channel audio data (audio text converter) according to an embodiment of the present invention is implemented in a network camera (see FIG. 3)
  • the load of the central processing unit (hereinafter, CPU) of the central system may be reduced. Can be.
  • the multi-channel audio data visualization apparatus (audio text conversion unit) according to an embodiment of the present invention is included in the configuration inside the central system (see FIG. 5B), it is necessary to include an audio text conversion unit in each network camera. none.
  • the excellent arithmetic processing capability of the central system can be utilized, and the audio text converting unit can be collectively managed.
  • FIG. 6 is a detailed block diagram illustrating an internal configuration of a visualization apparatus for multi-channel audio data according to an exemplary embodiment.
  • the apparatus 600 for visualizing multi-channel audio data may include a data separator 610, a pattern detector 630, a converter 650, and a metadata storage 670. ), An audio setting unit 699.
  • the data separator 610 includes a voice / sound receiver 613 and a voice / sound preprocessor 616.
  • the data separator 610 receives video data and audio data and separates the audio data by frequency characteristics.
  • the voice / sound receiver 613 receives unencoded audio data from an audio sensor and an audio decoder.
  • the voice / sound preprocessor 616 separates the audio data received by the voice / sound receiver 613 based on the frequency characteristic. As the audio / sound preprocessor 616 separates the audio data based on the frequency characteristic, the audio / sound preprocessor 616 may separate the audio data for each subject that generates the voice (sound). As a result, the apparatus 600 for multi-channel audio data visualization according to an embodiment of the present invention can obtain the data amount increased by the number of subjects that generate voice / sound from the received audio data.
  • the voice / sound preprocessor 616 is based on the high and low characteristics of the frequency.
  • the voice of an adult male, the voice of an adult female, and the voice of a child can be separated and set as a text conversion target.
  • the voice / sound receiver 613 may be configured to have a frequency characteristic. Based on this, dog barks and screams can be separated and stored as separate data.
  • the audio / sound preprocessor 616 may receive various information for determining the characteristics of the audio from the audio setting unit 699 during the preprocessing of the audio data, which has been described above with reference to FIG. 3.
  • the pattern detector 630 includes a feature vector analyzer 633 and a pattern recognizor 636.
  • the pattern detector 630 detects audio data identical or similar to a preset audio pattern from each of the audio data separated for each frequency characteristic through the data separator 610.
  • the feature vector analyzer 633 makes the audio data into data capable of analyzing the tone or pattern of the sound. Specifically, the feature vector analyzer 633 may extract a feature vector from voice data and determine a filter suitable for processing each data.
  • the feature vector analyzer 633 primarily analyzes the speech height, pronunciation, and speech speed using the feature vector extracted from the speech data, and then additionally analyzes additional information such as the age of the speech subject. As a result, a filter to be finally applied to voice data may be determined. The acoustic data may also be analyzed through the same process as the speech data.
  • the pattern recognition unit 636 determines a pattern of audio data.
  • the pattern recognition unit 636 may receive the feature vector for calculating the pattern of the audio data and the filter information from the feature vector analyzer 633, and determine the pattern of the audio data through acoustic modeling. have.
  • the pattern recognizer 636 may determine a pattern from audio data to which acoustic modeling is applied, based on a reference pattern stored in advance.
  • the pattern recognizing unit 636 may first determine a pattern of sound data having a smaller amount of calculation than syllable data.
  • the reference pattern may include patterns for particular sounds, such as event words, patterns for specific sounds such as gunshots, screams, alarm sounds, window breaking sounds, etc., as well as patterns for disconnection of sounds.
  • the reference pattern may include, but is not limited to, the gender, age, speech rate, voice level, etc. of the subject generating the voice.
  • the pattern recognizing unit 636 may recognize a pattern of speech by separately recognizing each word, recognizing each sentence, or detecting a keyword.
  • the monitoring system manager monitors the "facility system.” Occurs abnormally !! " Subtitles, etc. can be displayed.
  • the converter 650 includes a language modeler 653 and a language dictionary 656.
  • the converter 650 converts the pattern of the audio data detected by the pattern detector 630 into text.
  • the converter 650 may convert at least one of the voice data and the acoustic data recognized as information related to the event preset by the pattern recognition unit 636 into predefined text.
  • the language model unit 653 identifies the type of language from the voice data, and transfers the received voice data and information on the type of language to the language dictionary unit 656.
  • the language dictionary unit 656 receives information on the type of language from the language model unit 653, and provides the information necessary for the conversion unit 650 to convert the voice data into text.
  • the text may include information about the gender, voice level, age, etc. of the subject generating the voice, in addition to the word or sentence having the meaning.
  • the pattern recognition unit 636 when the pattern recognition unit 636 according to an embodiment of the present invention recognizes a voice pattern for requesting help from a woman in her 20s from Ireland, the monitor of the monitoring system may display “Help me ( Subtitles such as "Irish women in their twenties". According to one embodiment of the present invention, even if a large number of people are visible on the monitor of the monitoring system, the administrator of the monitoring system can quickly find the subject that generates the voice.
  • the language dictionary unit 656 may receive information about the language of which country the voice data includes from the language model unit 653, and determine a region where the language is used.
  • a caption including information on the region or the corresponding country on a monitor of the monitoring system Can be output.
  • the warning system may be activated by considering the same word as the event word as well as the dangerous word.
  • the audio setting unit 699 may set the visual or audio effect to be different according to the priority of the text when displaying the text in the form of subtitles.
  • the word 'bomb' of channel-01 when the word 'bomb' of channel-01 is set as the highest priority, the word 'bomb' is different from the words of channel-02 to channel-04 in the monitor of the monitoring system. It may be displayed as, or may display the word 'bomb' on the monitor of the monitoring system and at the same time trigger an alarm system connected to the monitoring system, but is not limited thereto.
  • the metadata storage unit 670 stores the audio data converted into text.
  • the metadata storage unit 670 may store channel information and video section information corresponding to audio data as metadata of the video data, but is not limited thereto.
  • the video section information corresponding to the audio data may be at least one of video section information corresponding to audio data separated by frequency characteristics by the voice / sound preprocessor 616 and video section information corresponding to audio data converted into text. Can be.
  • a video section corresponding to audio data separated by frequency characteristics is 12:20:12
  • a video section corresponding to audio data converted to text such as a section where an event word is detected, is set at 12:05.
  • the video section information for the subtitle to be displayed in the surveillance system is sufficient for 12: 5 to 12: 6.
  • the video section information may be adjusted by the surveillance system administrator because the video section information is also required from 12 o'clock to 12:20 to accurately determine the time of occurrence of the audio data including the event word for the purpose of identifying the content. have.
  • FIG. 7 illustrates a monitor of a 9-channel video surveillance system operated by an apparatus or method for visualizing multichannel audio data according to an exemplary embodiment.
  • the network cameras of channels-02, channel-05, channel-06, and channel-08 do not receive an event word, and the surveillance system monitor monitors corresponding channel regions 702, 705, 706, 708) does not display captions.
  • the audio text converting unit recognizes the window cracking sound and corresponds to a pre-defined subtitle 'Changrang !' Window break) 'can be output to channel-01 area 701 of the surveillance system monitor.
  • the audio text converting unit recognizes the female scream sound, and the corresponding subtitle 'scream sound' is predefined to correspond thereto.
  • the sound input alone may notify the surveillance system administrator of the central system. You can also find out that the screaming woman is a woman in her 40s.
  • the audio text conversion unit When multiple voices are input as voice data through a network camera of channel-04, the audio text conversion unit according to an embodiment of the present invention classifies and recognizes multiple voices and detects a keyword from the recognized voices.
  • Channel-04 area (704) which monitors the monitoring system, pre-defined subtitles “explosives” (men in their 20s, Shandong) and “terrorism” (women in their 30s, Nanjing) in China. ) Can be printed.
  • the audio text converter separates the voices of several persons by subject through the voice preprocessor (616, see FIG. 6), and distinguishes the age and gender of the subject through feature vector analysis and pattern recognition. Recognizing the event word through the language model unit 653 (see FIG. 6) and the language dictionary unit 656 (see FIG. 6) of the conversion unit 650 (see FIG. 6), the subject who said the event word is determined to be Chinese. can do. Audio text converter according to an embodiment of the present invention by extracting the volume information of the audio input during the pre-processing of the voice output to the screen, the monitoring system administrator can listen to the specific audio section including the event word by adjusting the volume It can also provide functionality.
  • Audio text conversion unit when the network camera of the channel-09 and the two-way speaker is installed in the central system, if the surveillance system manager says "Seoul 22, 1234 car", the speaker is unauthorized At the same time it delivers the sound to the parking lot, it can perform the Speech To Text (STT) function that recognizes the language of the surveillance system manager and stores it as text.
  • STT Speech To Text
  • the translated text of the surveillance system manager which is stored by the STT function, can be used for a text search to find out when the unauthorized parking occurred and the car number.
  • the channel-04 region 704 of the monitoring system monitor may be displayed to be the largest.
  • the size of each channel region of the surveillance system monitor may be manually changed by the surveillance system administrator, but is not limited thereto.
  • an apparatus and method for visualizing multi-channel audio data by monitoring and expressing audio data in a surveillance system, it is possible to specify a specific channel of each channel without selectively listening to audio of a specific channel in the surveillance system. Event occurrence can be clearly identified and detected.
  • the surveillance system can operate a higher-performance surveillance system that visualizes even a specific sound in the blind spot of the network camera.
  • the invention can also be embodied as computer readable code on a computer readable recording medium.
  • Computer-readable recording media include all kinds of recording devices that store data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like.
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
  • functional programs, codes, and code segments for implementing the present invention can be easily inferred by programmers in the art to which the present invention belongs.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Alarm Systems (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

본 발명은 종래의 다수의 네트워크 카메라로 운용되는 감시 시스템에 있어서, 각 채널에 대응되는 오디오 데이터를 식별하기 어려운 점을 개선시키기 위해, 오디오 데이터를 주파수 특성별로 분리하고, 기설정된 오디오 패턴과 동일하거나, 유사한 오디오 데이터를 검출하여 그것을 텍스트로 변환한 후, 관련 비디오 정보와 함께 메타데이터로 저장하는 멀티 채널 오디오 데이터의 시각화 장치 및 방법을 제공함으로써, 감시 시스템에서 특정 채널의 오디오만을 선택적으로 청취해야 할 필요 없이 각 채널의 특정 이벤트 발생을 명확히 감지할 수 있다.

Description

멀티 채널 오디오 데이터의 시각화 장치 및 방법
본 발명은 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 관한 것으로, 구체적으로는, 감시 시스템에서 다수의 네트워크 카메라를 통해 입력된 오디오 데이터로부터 특정 단어 및 어구를 시각화하여 영상과 함께 출력시키기 위한 장치 및 방법에 관한 것이다.
종래의 감시 시스템 동작 방식은, 감시 시스템 관리자에 의해 선택된 채널의 오디오를 출력하고, 카메라에 설치되어 있는 스피커로 마이크 입력을 전달하는 양방향 오디오 동작이 주를 이루는 방식으로, 오디오 데이터는 감시 시스템에서 부가적으로 활용되어왔다.
감시 시스템 관리자는 멀티 채널의 영상을 감시하는 중 특정 이벤트가 발생한 경우, 단일 또는 멀티 채널의 오디오를 선택적으로 청취할 수 있다. 그러나, 감시 시스템에서 중앙 시스템 모니터에 표시되는 채널의 수는 보통 4개에서 많게는 128개가 되므로, 여러 채널의 오디오가 동시에 출력되면 어떤 채널로부터 발생된 소리인지 구분하기 어렵고, 여러 채널의 소리가 섞이기 때문에 어떤 소리인지 명확히 구분하기 어려운 문제가 있다.
본 발명이 이루고자 하는 기술적 과제는, 다수의 네트워크 카메라로 운용되는 감시 시스템에서, 각 채널에 대응되는 오디오 데이터를 식별할 수 있는 멀티 채널 오디오 데이터의 시각화 장치 및 방법을 제공하는 데에 있다.
본 발명의 일 실시 예에 따르면, 상기 기술적 과제를 해결하기 위한 본 발명의 제 1실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 채널별로 비디오 데이터와 오디오 데이터를 수신하고, 상기 오디오 데이터를 주파수 특성별로 분리하는 데이터 분리부, 주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 패턴 검출부, 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 변환부 및 텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 메타데이터 저장부를 포함한다.
본 발명의 다른 실시 예에 따르면, 상기 기술적 과제를 해결하기 위한 본 발명의 제 2실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법은 채널별로 비디오 데이터와 오디오 데이터를 수신하는 단계, 상기 오디오 데이터를 주파수 특성별로 분리하는 단계, 주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 단계, 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 단계 및 상기 텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 단계를 포함한다.
본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 의하면, 오디오 데이터를 시각화하여 표현함으로써, 감시 시스템에서 특정 채널의 오디오만을 선택적으로 청취할 필요 없이 각 채널의 특정 이벤트 발생을 명확히 구분하여 감지할 수 있다.
또한, 오디오 데이터의 특성 분석을 통해, 특정 음성 또는 특정 음향을 발생시킨 주체를 구분하고, 그 주체에 대한 정보를 유추함으로써, 감시 시스템 관리자가 별도로 영상 분석을 하지 않더라도 영상 감시의 목적을 일정 수준 이상 달성할 수 있다. 오디오 데이터의 정밀 분석이 수반됨에 따라, 감시 시스템에서 네트워크 카메라의 사각지대에서 특정 소리만 발생한 경우에도 이를 시각화하여 보여주는 방식의 보다 높은 성능의 감시 시스템을 운용할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 나타낸 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법을 나타낸 순서도이다.
도 3은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현된 네트워크 카메라를 나타낸 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법으로 동작하는 4채널 영상 감시 시스템의 모니터를 나타낸다.
도 5a는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치의가 네트워크 카메라에 구현된 경우, 그것에 대응하는 중앙 시스템을 나타낸 블록도이다.
도 5b는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현된 중앙 시스템을 나타낸 블록도이다.
도 6은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 내부 구성까지 상세하게 나타낸 블록도이다.
도 7은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 또는 방법으로 동작하는 9채널 영상 감시 시스템의 모니터를 나타낸다.
본 발명의 일 실시 예에 따르면, 상기 기술적 과제를 해결하기 위한 본 발명의 제 1실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 채널별로 비디오 데이터와 오디오 데이터를 수신하고, 상기 오디오 데이터를 주파수 특성별로 분리하는 데이터 분리부, 주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 패턴 검출부, 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 변환부 및 텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 메타데이터 저장부를 포함한다.
본 실시 예에 있어서, 상기 데이터 분리부는 상기 오디오 데이터를 오디오를 생성하는 주체별로 분리할 수 있다.
본 실시 예에 있어서, 상기 데이터 분리부는 미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 상기 오디오 데이터를 분리할 수 있다.
본 실시 예에 있어서, 상기 기준 패턴은 미리 정해진 음성에 대한 패턴, 미리 정해진 음향에 대한 패턴, 및 미리 정해진 오디오의 단절에 대한 패턴 중 적어도 하나를 포함할 수 있다.
본 실시 예에 있어서, 상기 미리 정해진 음성에 대한 패턴은 음성을 생성하는 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 및 지역색을 나타내는 단어 중 적어도 하나에 대한 패턴을 포함할 수 있다.
본 실시 예에 있어서, 상기 메타데이터 저장부는 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나를 저장할 수 있다.
본 실시 예에 있어서, 상기 텍스트는 오디오 생성 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 출신 지역, 음향에 대응되는 자막, 및 경고 중 적어도 하나에 대한 정보를 포함할 수 있다.
본 실시 예에 있어서, 상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하는 모니터를 더 포함하고, 상기 텍스트는 상기 채널 정보 및 상기 비디오 구간 정보에 기초하여 상기 비디오 데이터와 대응되도록 출력될 수 있다.
본 실시 예에 있어서, 상기 모니터는 상기 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 상기 검출된 오디오 데이터의 미리 정해진 우선순위에 비례하는 사이즈로 표시할 수 있다.
본 실시 예에 있어서, 상기 기준 패턴은 미리 정해진 검출 대상이 되는 언어의 종류 및 미리 정해진 사용자 언어의 종류를 포함하고, 상기 변환부는 상기 검출된 오디오 데이터를 상기 미리 정해진 검출 대상이 되는 언어의 종류 및 상기 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환할 수 있다.
본 발명의 다른 실시 예에 따르면, 상기 기술적 과제를 해결하기 위한 본 발명의 제 2실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법은 채널별로 비디오 데이터와 오디오 데이터를 수신하는 단계, 상기 오디오 데이터를 주파수 특성별로 분리하는 단계, 주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 단계, 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 단계 및 상기 텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 단계를 포함한다.
본 실시 예에 있어서, 상기 오디오 데이터를 상기 주파수 특성별로 분리하는 단계는, 상기 오디오 데이터를 오디오를 생성하는 주체별로 분리하는 단계일 수 있다.
본 실시 예에 있어서, 상기 오디오 데이터를 상기 주파수 특성별로 분리하는 단계는, 미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 상기 오디오 데이터를 분리하는 단계일 수 있다.
본 실시 예에 있어서, 상기 기준 패턴은 미리 정해진 음성에 대한 패턴, 미리 정해진 음향에 대한 패턴, 및 미리 정해진 오디오의 단절에 대한 패턴 중 적어도 하나를 포함할 수 있다.
본 실시 예에 있어서, 상기 미리 정해진 음성에 대한 패턴은 음성을 생성하는 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 및 지역색을 나타내는 단어 중 적어도 하나에 대한 패턴을 포함할 수 있다.
본 실시 예에 있어서, 상기 비디오 데이터의 메타데이터를 저장하는 단계는, 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나를 저장하는 단계일 수 있다.
본 실시 예에 있어서, 상기 텍스트는 오디오 생성 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 출신 지역, 음향에 대응되는 자막, 및 경고 중 적어도 하나에 대한 정보를 포함할 수 있다.
본 실시 예에 있어서, 상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하고, 상기 채널 정보 및 상기 비디오 구간 정보에 기초하여 상기 텍스트가 상기 비디오 데이터와 대응되도록 출력하는 단계를 더 포함할 수 있다.
본 실시 예에 있어서, 상기 검출된 오디오 데이터의 우선순위를 판단하는 단계를 더 포함하고, 상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하는 단계는, 상기 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 상기 우선순위에 비례하는 사이즈로 표시하는 단계일 수 있다.
본 실시 예에 있어서, 상기 기준 패턴은 미리 정해진 검출 대상이 되는 언어의 종류 및 미리 정해진 사용자 언어의 종류 를 포함하고, 상기 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 단계는, 상기 검출된 오디오 데이터를 상기 미리 정해진 검출 대상이 되는 언어의 종류 및 상기 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환하는 단계일 수 있다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다. 또한, 본 발명의 원리, 관점 및 실시 예들뿐만 아니라 특정 실시 예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한, 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 프로세서 또는 이와 유사한 개념으로 표시된 기능 블록을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다. 또한, 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니 되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지 관용의 다른 하드웨어도 포함될 수 있다.
이하 본 발명의 바람직한 실시 예가 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다.
한편, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
후술하는 '이벤트 단어'는, 본 발명의 일 실시 예에 따라 구현된 오디오 설정부에 사전 정의된 단어로서, 네트워크 카메라에 의해 감지되면, 네트워크 카메라와 원격으로 연결된 감시 시스템의 모니터에 자막으로 표시된다.
후술하는 '멀티 채널 오디오 데이터의 시각화 장치'는 네트워크 카메라나 중앙 시스템에서 구현되는 경우, 명세서와 도면의 간명화를 위해 '오디오 텍스트 변환부'로 간략하게 기재될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 나타낸 블록도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 데이터 분리부(110), 패턴 검출부(130), 변환부(150), 메타데이터 저장부(170)을 포함한다.
데이터 분리부(110)는 채널별로 비디오 데이터와 오디오 데이터를 수신하고, 수신한 오디오 데이터를 주파수 특성별로 분리한다.
데이터 분리부(110)는 오디오 데이터를 오디오를 생성하는 주체별로 분리할 수 있다. 데이터 분리부(110)는 오디오 데이터를 미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 분리할 수도 있다.
패턴 검출부(130)는 데이터 분리부(110)를 통해 주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출한다.
기준 패턴은 미리 정해진 음성에 대한 패턴, 미리 정해진 음향에 대한 패턴, 및 미리 정해진 오디오의 단절에 대한 패턴 중 적어도 하나를 포함할 수 있다.
미리 정해진 음성에 대한 패턴은 음성을 생성하는 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 지역색을 나타내는 단어, 언어의 종류 중 적어도 하나에 대한 패턴을 포함할 수 있으나, 이에 한정되지 않는다. 언어의 종류는 검출 대상이 되는 언어의 종류, 및 미리 정해진 사용자 언어 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다. 사용자 언어는 사용자 예컨대, 관리자 등에 의해 미리 설정될 수 있으나, 이에 한정되지 않는다.
미리 정해진 음향에 대한 패턴은 음향의 주파수 대역, 음향의 크기, 음향의 지속 시간 중 적어도 하나에 대한 패턴을 포함할 수 있으나, 이에 한정되지 않는다.
미리 정해진 오디오의 단절에 대한 패턴은 묵음의 지속 시간 등에 대한 패턴일 수 있으나, 이에 한정되지 않는다.
변환부(150)는 패턴 검출부(130)를 통해 검출된 오디오 데이터를 미리 저장된 기준 패턴과 대응되는 텍스트로 변환한다. 변환된 텍스트는 검출된 오디오 데이터를 문자화한 정보, 및 부가적인 정보 중 적어도 하나를 포함할 수 있다. 텍스트는 오디오 생성 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 출신 지역, 음향에 대응되는 자막, 및 경고 중 적어도 하나에 대한 정보를 포함할 수 있으나, 이에 한정되지 않는다.
변환부(150)는 텍스트를 하나 이상의 언어로 변환할 수 있다. 예컨대, 변환부(150)는 검출된 오디오 데이터를 검출 대상이 되는 언어의 종류의 텍스트 예컨대, 영어 텍스트 및 사용자 언어 예컨대, 한글 텍스트 중 적어도 하나로 변환할 수 있으나, 이에 한정되지 않는다.
메타데이터 저장부(170)는 텍스트로 변환된 오디오 데이터를, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 채널 정보와 함께, 비디오 데이터의 메타데이터로서 저장한다. 오디오 데이터에 포함된 이벤트 단어의 양에 따라, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보는 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보로 대체될 수 있으며, 이에 대한 설명은 도 6을 통해 후술한다.
도면에 도시되지 않았으나, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 모니터를 통해 채널별 비디오 데이터 및 텍스트를 동시에 출력할 수 있다. 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 모니터를 통해, 메타데이터 저장부(170)에 저장된 채널 정보 및 비디오 구간 정보에 기초하여, 비디오 데이터와 텍스트가 대응되도록 출력할 수 있으나, 이에 한정되지 않는다. 모니터는 채널별 표시 영역의 크기를 동일하거나 상이하게 표시할 수 있다. 예컨대, 모니터는 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 검출된 오디오 데이터의 미리 정해진 우선순위에 비례하는 사이즈로 각각 표시할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법을 나타낸 순서도이다. 이하에서는, 도 1과 동일한 내용에 관한 설명은 생략한다.
도 2를 참조하면, 데이터 분리부(110)는 비디오 데이터와 오디오 데이터를 수신하고, 수신한 오디오 데이터를 주파수 특성별로 분리한다(S210),
패턴 검출부(130)는 주파수 특성별로 분리된 오디오 데이터로부터 기설정된 오디오 패턴과 동일하거나, 유사한 오디오 데이터를 검출한다(S230),
변환부(150)는 검출된 오디오 데이터를 기설정된 오디오 패턴과 대응되는 텍스트로 변환한다(S250).
메타데이터 저장부(170)는 각 채널별로 비디오 데이터를 비디오 구간에 대응되는 텍스트와 함께 출력하기 위해, 텍스트로 변환된 오디오 데이터를, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 채널 정보와 함께, 비디오 데이터의 메타데이터로 저장한다(S270).구간 정보구간 정보
도 3은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현된 네트워크 카메라를 나타낸 블록도이다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 감시 시스템의 네트워크 카메라(300)는 이미지 센서(310), 비디오 인코더(320), 네트워크 인터페이스(330), 오디오 센서 & 마이크로폰(340), 오디오 인코더(350), 오디오 설정부(360), 오디오 텍스트 변환부(370) 및 오디오/텍스트 데이터베이스(380)를 포함한다.
이미지 센서(310)는 네트워크 카메라(300)의 렌즈를 통해 입사된 빛을 영상 신호로 변환하고, 비디오 인코더(320)는 영상 신호를 압축한다.
네트워크 인터페이스(330)는 네트워크 카메라(300)의 비디오 인코더(320) 및 오디오 인코더(350)가 각각 출력하는 압축된 비디오 데이터 및 압축된 오디오 데이터를, Network Video Recorder(NVR), Digital Video Recorder(DVR), 또는 Central Monitoring System(CMS)과 같은 중앙 시스템으로 전송한다.
오디오 센서 & 마이크로폰(340)은 네트워크 카메라(300)를 통해 입력되는 소리를 오디오 데이터로 변환하여, 오디오 인코더(350), 및 오디오 텍스트 변환부(370)에 전달한다. 이때, 오디오 데이터에 대응되는 비디오 구간 정보도 함께 전달될 수 있다.
오디오 인코더(350)는 변환된 오디오 데이터를 네트워크 인터페이스(330)에서 전송하기 용이하도록 G.711, G.726 과 같은 음성 코덱으로 압축한다.
오디오 설정부(360)는 오디오의 특성을 판단할 수 있는 정보를 미리 설정한다. 오디오의 특성을 판단할 수 있는 정보는 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 언어의 종류, 이벤트 단어 등을 포함할 수 있으나, 이에 한정되지 않는다.
예를 들면, 오디오 설정부(360)는 검출 대상이 되는 이벤트 단어를 미리 설정할 수 있다. 예컨대, 오디오 설정부(360)는 ‘폭탄’, ‘위협’, ‘테러’ 등의 단어를 이벤트 단어로 설정할 수 있다.
또한, 오디오 설정부(360)는 검출 대상이 되는 언어의 종류 및 사용자 언어의 종류를 미리 설정할 수 있다. 후술할 오디오 텍스트 변환부(370)는, 오디오 데이터로부터 미리 설정된 검출 대상이 되는 언어의 종류가 감지되면, 검출된 오디오 데이터를, 감지된 언어의 종류 및 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환할 수 있으나, 이에 한정되지 않는다.
오디오 설정부(360)는 후술하는 오디오 텍스트 변환부(370)에 포함될 수도 있으나, 이에 한정되지 않는다.
오디오 텍스트 변환부(370)는, 네트워크 카메라(300)에 구현된, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치로서, 입력된 오디오 데이터를, 오디오 설정부(360)에 저장된 정보를 이용하여 분석하여 주파수 특성별로 분리하고, 텍스트로 변환한다. 이때, 텍스트로 변환된 오디오 데이터, 해당 오디오 데이터에 대응되는 비디오 구간 정보 및 네트워크 카메라(300)의 채널 정보는 비디오 데이터의 메타데이터로서 저장될 수 있다.
오디오/텍스트 데이터베이스(380)는 네트워크 인터페이스(330)를 통해 감시 시스템 관리자로부터 변경된 이벤트 단어 등을 입력받음으로써, 데이터를 갱신한다. 오디오/텍스트 데이터베이스(380)는 네트워크 카메라(300)의 내부 또는 외부에 위치할 수 있으나, 이에 한정되지 않는다.
도 4는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법으로 동작하는 4채널 영상 감시 시스템의 모니터를 나타낸다.
도 4를 참조하면,채널-01의 네트워크 카메라를 통해 사전 정의된 '폭탄'이라는 단어가 감지되면, 해당 단어가 모니터의 채널-01 영역(401)에 자막으로 표시된다.
채널-02의 네트워크 카메라를 통해 사전 정의된 '마약'이라는 단어가 감지되면, 해당 단어가 모니터의 채널-02 영역(402)에 자막으로 표시된다.
채널-03의 네트워크 카메라를 통해 사전 정의된 '접선장소'라는 단어가 감지되면, 해당 단어가 모니터의 채널-03 영역(403)에 자막으로 표시된다.
채널-04의 네트워크 카메라를 통해 사전 정의된 'Money'라는 단어가 감지되면, 모니터의 채널-04 영역(404)에 'Money'가 해당 단어의 한국어 번역(돈)과 함께 자막으로 표시된다. 이와 같은 경우는, 검출 대상이 되는 언어의 종류가 영어이고, 사용자 언어의 종류가 한국어인 경우로서, 오디오 텍스트 변환부(370)는 오디오 설정부(360)에 저장된 정보를 이용하여, 검출된 오디오 데이터를, 영어 텍스트 및 한국어 텍스트로 표시할 수 있음을 나타낸다.
이와 같이, 본 발명의 실시 예에 따르면, 감시 시스템의 모니터의 각 채널 영역에 특정 단어가 자막으로 표시됨에 따라, 감시 시스템 관리자는 모든 채널의 오디오를 출력하거나 심지어 모든 채널의 오디오 전원을 끄더라도, 어느 채널에서 발생하는 소리인지 구분할 수 있다.
도 5a는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 네트워크 카메라에 구현된 경우, 그것에 대응하는 중앙 시스템을 나타낸 블록도이다.
도 5a를 참조하면, 중앙 시스템(500)은 비디오 데이터 수신부(505), 비디오 디코더(510), 저장장치(515), 오디오 텍스트 데이터 수신부(520), 오디오 데이터 수신부(525), 오디오 디코더(530), 비디오 멀티플렉서(535), 비디오 출력부(540), 및 오디오 출력부(545)를 포함한다. 중앙 시스템(500)은 다수의 네트워크 카메라들(301a 내지 Na)로부터 압축된 비디오 데이터 및 압축된 오디오 데이터를 수신할 수 있다.
비디오 데이터 수신부(505)는 네트워크 카메라 1(301a)로부터 압축된 비디오 데이터를 수신한다. 네트워크 카메라 1(301a)은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현된 카메라를 의미할 수 있다.
비디오 데이터 수신부(505)는 압축된 비디오 데이터를 비디오 디코더(510) 및 저장장치(515)로 각각 전달할 수 있다.
비디오 디코더(510)는 압축된 비디오 데이터를 디코딩한다. 비디오 디코더(510)는 디코딩한 비디오 데이터를 비디오 멀티플렉서(535)로 전달할 수 있다.
저장장치(515)는 비디오 데이터 수신부(505), 오디오 텍스트 데이터 수신부(520), 및 오디오 데이터 수신부(525)로부터 각각 압축된 비디오 데이터, 오디오 텍스트 데이터, 압축된 오디오 데이터를 받아 저장한다. 저장장치(515)는 데이터를 저장할 뿐만 아니라, 필요에 따라 저장된 데이터를 전달하는 역할도 한다.
오디오 텍스트 데이터 수신부(520)는 네트워크 카메라 1(301a)로부터 텍스트로 변환된 오디오 데이터, 오디오 데이터에 대응되는 비디오 구간 정보, 및 네트워크 카메라의 채널 정보를 수신하여 저장장치(515)에 전달한다. 오디오 텍스트 데이터 수신부(520)는 원격 전송을 용이하게 하기 위해 네트워크 카메라 1(301a)로부터 압축된 텍스트 데이터를 받을 수 있고, 압축된 텍스트 데이터를 해제하는 구성도 포함할 수 있다.
오디오 데이터 수신부(525)는 네트워크 카메라 1(301a)로부터 압축된 오디오 데이터를 수신한다. 오디오 데이터 수신부(525)는 압축된 오디오 데이터를 오디오 디코더(530) 및 저장장치(515)로 각각 전달할 수 있다.
오디오 디코더(530)는 압축된 오디오 데이터를 디코딩한다. 오디오 디코더(530)는 디코딩한 오디오 데이터를 오디오 출력부(545)로 전달한다.
비디오 멀티플렉서(535)는 비디오 디코더(510)에서 전달된 압축해제된 비디오 데이터를 이용하여 중앙 시스템 모니터에 출력하기 위한 채널 레이아웃(Channel Layout)을 구성하고, 오디오 텍스트 데이터 수신부(520)에서 전달된 오디오 텍스트 데이터를 해당 채널 레이아웃에 맵핑시킨다.
예를 들어, 중앙 시스템(500)이 16개의 네트워크 카메라들과 연결된 경우, 비디오 멀티플렉서(535)는 중앙 시스템 모니터의 화면을 균등하게 16등분한 채널 레이아웃을 구성하고, 아라비아 숫자를 순서대로 채널 번호와 대응시킬 수 있다. 중앙 시스템 모니터의 화면은 불균등하게 16등분한 채널 레이아웃으로 구성될 수도 있으나, 이에 한정되지 않는다.
비디오 출력부(540)는 비디오 멀티플렉서(535)를 통해 채널 레이아웃과 맵핑된 오디오 텍스트 데이터 및 압축해제된 비디오 데이터를, 중앙 시스템 모니터를 통해 출력한다.
오디오 출력부(545)는 오디오 디코더(530)를 통해 압축해제된 오디오 데이터를 , 중앙 시스템의 스피커를 통해 출력한다.
도 5b는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현된 중앙 시스템을 나타낸 블록도이다. 이하에서, 도 5a와 중복되는 구성에 대한 설명은 생략한다. 도 5b에 도시된 네트워크 카메라 1(301b)은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현되지 않은 카메라를 의미할 수 있으나, 이에 한정되지 않는다. 네트워크 카메라 1(301b)은 압축된 비디오 데이터 및 압축된 오디오 데이터를 중앙 시스템(500)에 전송할 수 있다.
도 5b를 참조하면, 오디오 디코더(530)는 오디오 데이터 수신부(525)로부터 압축된 오디오 데이터를 수신하여 압축해제(디코딩)하고, 압축해제된 오디오 데이터를 오디오 출력부(545) 및 오디오 텍스트 변환부(550)에 각각 전달한다.
오디오 텍스트 변환부(550)는, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 중앙 시스템(500)에 구현된 것으로서, 오디오 디코더(530)로부터 수신한 오디오 데이터를 주파수 특성별로 분리한 후, 텍스트로 변환한다. 이때, 텍스트로 변환된 오디오 데이터와 오디오 데이터에 대응되는 비디오 구간 정보 및 네트워크 카메라의 채널 정보는 비디오의 메타데이터로서 저장될 수 있다.
오디오 텍스트 변환부(550)는, 오디오 설정부(360, 도 1 참고)를 포함할 수 있고, 도 5b의 저장장치(515)는 오디오/텍스트 데이터베이스(380, 도 3참고)를 포함할 수 있다.
본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(오디오 텍스트 변환부)가 네트워크 카메라에 구현된 경우(도 3 참고), 중앙 시스템의 중앙 처리 장치(이하, CPU)의 부하를 경감시킬 수 있다.
본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(오디오 텍스트 변환부)가 중앙 시스템 내부의 구성에 포함된 경우(도 5b 참고)에는, 각 네트워크 카메라에 오디오 텍스트 변환부를 구비할 필요가 없다. 또한, 도 5b와 같이 중앙 시스템을 구현하는 경우에는, 중앙 시스템의 뛰어난 연산 처리 능력을 활용할 수 있고, 오디오 텍스트 변환부를 일괄적으로 관리할 수 있다.
도 6은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 내부 구성까지 상세하게 나타낸 블록도이다.
도 6을 참조하면, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(600)는 데이터 분리부(610), 패턴 검출부(630), 변환부(650), 메타데이터 저장부(670), 오디오 설정부(699)를 포함한다.
데이터 분리부(610)는 음성/음향 수신부(613), 및 음성/음향 전처리부(616)를 포함한다. 데이터 분리부(610)는 비디오 데이터와 오디오 데이터를 수신하고, 오디오 데이터를 주파수 특성별로 분리한다.
음성/음향 수신부(613)는 오디오 센서 및 오디오 디코더로부터 인코딩되지 않은 오디오 데이터를 수신한다.
음성/음향 전처리부(616)는 주파수 특성을 기초로 음성/음향 수신부(613)에서 수신한 오디오 데이터를 분리한다. 음성/음향 전처리부(616)는 주파수 특성을 기초로 오디오 데이터를 분리함에 따라, 음성(음향)을 생성하는 주체별로 오디오 데이터를 분리할 수 있다. 그 결과, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(600)는 수신한 오디오 데이터로부터 음성/음향을 생성하는 주체의 수만큼 늘어난 데이터량을 얻을 수 있다.
예를 들어, 음성/음향 수신부(613)가 동시에 말을 하는 성인남성, 성인여성, 및 어린이가 포함된 영상에 대한 데이터를 수신한다면, 음성/음향 전처리부(616)는 주파수의 고저 특성에 기반하여 성인남성의 음성, 성인여성의 음성, 어린이의 음성을 분리하여 텍스트 변환 대상으로 설정할 수 있다. 다른 예를 들어, 음성/음향 수신부(613)가 개가 짖는 소리, 및 의미를 포함하고 있지 않으나 중요한 정보를 담은 비명 소리와 같은 음향을 수신하는 경우, 음성/음향 전처리부(616)는 주파수 특성에 기반하여 개가 짖는 소리, 비명 소리를 분리하여 별도의 데이터로 저장할 수 있다.
음성/음향 전처리부(616)는 오디오 데이터를 전처리하는 과정에서 오디오 설정부(699)로부터 오디오의 특성을 판단할 수 있는 각종 정보를 제공받을 수 있으며, 이는 도 3에서 이미 설명한 바 있다.
패턴 검출부(630)는 특징 벡터 분석부(633, feature vector analyzer), 및 패턴 인식부(636, pattern recognizor)를 포함한다. 패턴 검출부(630)는 데이터 분리부(610)를 통해 주파수 특성별로 분리된 오디오 데이터 각각으로부터 기설정된 오디오패턴과 동일하거나 유사한 오디오 데이터를 검출한다.
특징 벡터 분석부(633)는 오디오 데이터를 소리의 음색이나 패턴을 분석할 수 있는 데이터로 만든다. 구체적으로는, 특징 벡터 분석부(633)는 음성 데이터로부터 특징 벡터를 추출하고, 각 데이터 처리에 적합한 필터를 결정할 수 있다.
예를 들어, 특징 벡터 분석부(633)는 음성 데이터로부터 추출된 특징 벡터를 이용하여 음성의 높낮이, 발음, 발언속도를 1차적으로 분석하고, 그로부터 음성 주체의 연령과 같은 부가적인 정보를 2차적으로 분석하여, 최종적으로 음성 데이터에 적용할 필터를 결정할 수 있다. 음향 데이터도 음성 데이터와 동일한 과정을 통해 분석될 수 있다.
패턴 인식부(636)는 오디오 데이터의 패턴을 판단한다. 구체적으로, 패턴 인식부(636)는 특징 벡터 분석부(633)로부터 오디오 데이터의 패턴을 산출하기 위한 특징 벡터, 및 필터에 관한 정보를 수신하고, 음향 모델링을 통해 오디오 데이터의 패턴을 판단할 수 있다.
패턴 인식부(636)는 미리 저장된 기준 패턴에 기초하여, 음향 모델링이 적용된 오디오 데이터로부터 패턴을 판단할 수 있다. 패턴 인식부(636)는 음절 데이터보다 연산량이 적은 음향 데이터의 패턴을 먼저 판단할 수 있다. 기준 패턴은 이벤트 단어와 같은 특정 음성에 대한 패턴, 총소리, 비명소리, 알람 소리, 유리창 깨지는 소리 등과 같은 특정 음향에 대한 패턴뿐만 아니라, 소리의 단절에 대한 패턴도 포함할 수 있다. 기준 패턴은 음성을 생성하는 주체의 성별, 연령, 발언속도, 목소리의 높낮이 등을 포함할 수도 있으나, 이에 한정되지 않는다.
패턴 인식부(636)는 단어 하나하나를 구분하여 인식하거나, 문장 단위로 인식하거나, 또는 키워드를 검출함으로써, 음성의 패턴을 인식할 수 있다.
이와 같은 본 발명의 실시 예들에 따르면, 계속 특정 주파수 대역의 소리를 발생시키는 공장 내부의 특정 설비가 해당 특정 주파수 대역 이외의 소리를 낼 때는 물론, 소리가 단절된 경우에도 감시 시스템 관리자의 모니터에 "설비 이상 발생!!" 등의 자막을 표시할 수 있다.
변환부(650)는 언어 모델부(653, language modeler) 및 언어 사전부(656, language dictionary)을 포함한다. 변환부(650)는 패턴 검출부(630)에서 검출된 오디오 데이터의 패턴을 텍스트로 변환 처리한다. 변환부(650)는 음성 데이터, 및 패턴 인식부(636)에서 기설정된 이벤트와 관련된 정보라고 인식된 음향 데이터 중 적어도 하나를 사전 정의된 텍스트로 변환할 수 있다.
언어모델부(653)는 음성 데이터로부터 언어의 종류를 식별하고, 수신한 음성 데이터와 언어의 종류에 대한 정보를 언어사전부(656)에 전달한다.
언어사전부(656)은 언어모델부(653)로부터 언어의 종류에 대한 정보를 전달받아, 변환부(650)가 음성 데이터를 텍스트로 변환하기 위해 필요한 정보를 제공한다.
텍스트는 의미를 가진 단어나 문장 외에도, 음성을 생성하는 주체의 성별, 목소리의 높낮이, 연령 등에 대한 정보를 포함할 수 있다. 예를 들어, 본 발명의 일 실시 예에 따른 패턴 인식부(636)가, 음성 데이터로부터 아일랜드 출신의 20대 여성이 도움을 요청하는 음성 패턴을 인식한 경우, 감시 시스템의 모니터에 "Help me(20대 아일랜드 여성)"와 같은 자막이 출력될 수 있다. 이와 같은 본 발명의 일 실시 예에 따르면, 감시 시스템의 모니터에 다수의 인물이 비춰지는 경우라 하더라도, 감시 시스템의 관리자가 음성을 생성하는 주체를 빠르게 알아낼 수 있다.
언어사전부(656)는 언어모델부(653)로부터 음성 데이터가 어느 국가의 언어를 포함하고 있는지에 관한 정보를 전달받고, 해당 언어가 사용되는 지역을 판단할 수 있다.
언어사전부(656)에 미리 저장된 특정 지역의 방언이나, 특정 국가에서만 쓰이는 은어, 속어에 대응하는 음성 데이터가 인식된 경우, 감시 시스템의 모니터에 해당 지역이나, 해당 국가에 대한 정보를 포함하는 자막이 출력될 수 있다.
또한, 언어사전부(656)가 동의어를 저장함에 따라, 이벤트 단어와 동일한 단어 뿐만 아니라, 유사한 단어에 대해서도 위험한 단어로 간주하여 경고 시스템을 발동시킬 수 있다.
이때, 오디오 설정부(699)는 텍스트를 자막 형태로 표시할 때, 텍스트의 우선 순위에 따라 시각적 또는 청각적 효과가 다르게 나타나도록 설정할 수 있다.
예를 들어, 도 4를 참조하면, 채널-01의 '폭탄'이라는 단어가 최우선 순위로 설정된 경우, 감시 시스템의 모니터에'폭탄'이라는 단어가, 채널-02 내지 채널-04의 단어들과는 다른 색으로 표시될 수도 있고, 감시 시스템의 모니터에 ‘폭탄’이라는 단어를 표시하는 동시에 감시 시스템에 연결된 경보 시스템을 발동시킬 수도 있으나, 이에 한정되지 않는다.
다시 도 6을 참조하여 설명한다.
메타데이터 저장부(670)는 텍스트로 변환된 오디오 데이터를 저장한다. 메타데이터 저장부(670)는 채널 정보, 및 오디오 데이터에 대응되는 비디오 구간 정보를 비디오 데이터의 메타데이터로서 저장할 수 있으나, 이에 한정되지 않는다. 오디오 데이터에 대응되는 비디오 구간 정보는, 음성/음향 전처리부(616)에서 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나일 수 있다.
예를 들어, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간이 12시에서 12시 20분이고, 이벤트 단어가 감지된 구간과 같이 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간이 12시 5분에서 12시 6분이라면, 감시 시스템에 표시될 자막을 위한 비디오 구간 정보는 12시 5분에서 12시 6분에 대한 것이면 충분하다. 다만, 오디오 데이터 특성상 내용 파악을 위해 이벤트 단어가 포함된 오디오 데이터의 발생 시간을 정확히 알기 위해서는 12시에서 12시 20분에 대한 비디오 구간 정보 역시 필요하므로, 비디오 구간 정보는 감시 시스템 관리자에 의해 조정될 수 있다.
도 7은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 또는 방법으로 동작하는 9채널 영상 감시 시스템의 모니터를 나타낸다.
도 7을 참조하면, 채널-02, 채널-05, 채널-06, 및 채널-08 각각의 네트워크 카메라는 이벤트 단어를 입력받지 않은 상태로, 감시 시스템 모니터는 해당 채널 영역(702, 705, 706, 708)에 자막을 표시하지 않는다.
채널-01의 네트워크 카메라를 통하여 유리창 깨지는 소리가 음향 데이터로 입력되면, 본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 유리창 깨지는 소리를 인지하고, 그에 대응되도록 사전 정의된 자막인 '쨍그랑!!(유리창 깨짐)'을 감시 시스템 모니터의 채널-01 영역(701)에 출력할 수 있다.
채널-03의 네트워크 카메라를 통하여 여성의 비명 소리가 음향 데이터로 입력되면, 본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 여성의 비명 소리를 인지하고, 그에 대응되도록 사전 정의된 자막인 '비명소리!!(40대 여성)'을 감시 시스템 모니터의 채널-03 영역(703)에 출력할 수 있다. 이와 같은 본 발명의 일 실시 예에 따르면, 비명을 지른 여성의 모습이 채널-03의 네트워크 카메라가 영상을 촬영할 수 없는 사각 지대에 있다 하더라도, 음향 입력만으로 중앙 시스템의 감시 시스템 관리자에게 위험을 알릴 수 있고, 비명을 지른 여성이 40대 여성이라는 정보를 알아낼 수도 있다.
채널-04의 네트워크 카메라를 통하여 여러 사람의 목소리가 음성 데이터로 입력되면, 본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 여러 사람의 목소리를 구분하여 인지하고, 인지된 음성으로부터 키워드를 검출하여, 키워드에 대응되도록 사전 정의된 자막인 '"폭발물"(중국 20대 남성, 산둥지방)'과 '"테러"(중국 30대 여성, 난징지방)'를 감시 시스템의 모니터인 채널-04 영역(704)에 출력할 수 있다.
본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 음성 전처리부(616, 도 6 참조)를 통해 여러 사람의 목소리를 주체별로 분리하고, 특징 벡터 분석과 패턴 인식을 통해 주체의 연령과 성별을 구별하고, 변환부(650, 도 6 참조)의 언어모델부(653, 도 6 참조)와 언어사전부(656, 도 6 참조)를 통해 이벤트 단어를 인식하여, 해당 이벤트 단어를 말한 주체를 중국인이라고 판단할 수 있다. 본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 음성 전처리 과정에서 입력되는 오디오의 볼륨 정보를 추출하여 화면에 출력함으로써, 감시 시스템 관리자가 이벤트 단어를 포함한 특정 오디오 구간을 볼륨을 조절해가며 들을 수 있는 기능도 제공할 수도 있다.
채널-07의 네트워크 카메라를 통하여 특정 주파수 대역의 동작음으로 동작하는 설비의 이상 동작음 또는 동작음 단절이 감지된 경우, 감시 시스템 모니터의 채널-07 영역(707)에 이상 동작음 또는 동작음 단절에 대응되도록 사전 정의된 자막인 '설비 이상 발생!!'이 출력될 수 있다. 이와 같은 본 발명의 일 실시 예에 따르면, 설비의 이상 동작음 뿐만 아니라, 동작음 단절도 기준 패턴으로 정의함으로써, 설비 이상에 대한 빠른 조치를 유도할 수 있다.
채널-09의 네트워크 카메라를 통하여 무단으로 주차하는 차에 의해 발동한 경보 시스템의 경보 소리가 음향 데이터로 입력되면, 감시 시스템의 모니터의 채널-09 영역(709)에 '무단 주차 발생!!'이 자막으로 표시될 수 있다.
본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는, 채널-09의 네트워크 카메라와 중앙 시스템에 양방향 스피커가 설치되어 있는 경우, 감시 시스템 관리자가 "서울22아1234 차 빼시오"라고 말하면, 스피커로 무단 주차자에게 그 말소리를 전달하는 동시에, 감시 시스템 관리자의 언어를 인식하여 텍스트로 저장하는 Speech To Text(STT) 기능을 수행할 수 있다. STT 기능에 의해 저장된, 감시 시스템 관리자의 언어를 변환한 텍스트는, 무단 주차가 발생한 시간과 차 번호를 알아내기 위한 텍스트 검색에 이용될 수 있다.
본 발명의 일 실시 예에 따르면, 채널-04의 이벤트 단어의 위험도가 가장 높다고 판단됨에 따라, 감시 시스템 모니터의 채널-04 영역(704)이 가장 크게 표시될 수 있다. 또는, 감시 시스템 모니터의 각 채널 영역의 크기는 감시 시스템 관리자에 의해 수동으로 변경될 수 있으나, 이에 한정되지 않는다.
본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 의하면, 감시 시스템에서 오디오 데이터를, 시각화하여 표현함으로써, 감시 시스템에서 특정 채널의 오디오만을 선택적으로 청취할 필요 없이 각 채널의 특정 이벤트 발생에 대해서 명확히 구분하여 감지할 수 있다.
또한, 오디오 데이터의 특성 분석을 통해, 특정 음성 또는 특정 음향을 발생시킨 주체를 구분하고, 그 주체에 대한 정보를 유추함으로써, 감시 시스템 관리자가 별도로 영상 분석을 하지 않더라도 영상 감시의 목적을 일정 수준 이상 달성할 수 있다. 오디오 데이터의 정밀 분석이 수반됨에 따라, 감시 시스템에서 네트워크 카메라의 사각지대에서 특정 소리만 발생한 경우에도 이를 시각화하여 보여주는 방식의 보다 높은 성능의 감시 시스템을 운용할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 발명은 상술한 실시형태 및 첨부된 도면에 의해 한정되지 아니하고, 첨부된 청구범위에 의해 권리범위를 한정하고자 하며, 청구범위에 기재된 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 형태의 치환, 변형 및 변경할 수 있다는 것은 당 기술분야의 통상의 지식을 가진 자에게 자명할 것이다.

Claims (20)

  1. 채널별로 비디오 데이터와 오디오 데이터를 수신하고, 상기 오디오 데이터를 주파수 특성별로 분리하는 데이터 분리부;
    주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 패턴 검출부;
    검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 변환부; 및
    텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 메타데이터 저장부를 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
  2. 제1항에 있어서,
    상기 데이터 분리부는 상기 오디오 데이터를 오디오를 생성하는 주체별로 분리하는 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
  3. 제1항에 있어서,
    상기 데이터 분리부는 미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 상기 오디오 데이터를 분리하는 멀티 채널 오디오 데이터의 시각화 장치.
  4. 제1항에 있어서,
    상기 기준 패턴은 미리 정해진 음성에 대한 패턴, 미리 정해진 음향에 대한 패턴, 및 미리 정해진 오디오의 단절에 대한 패턴 중 적어도 하나를 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
  5. 제4항에 있어서,
    상기 미리 정해진 음성에 대한 패턴은 음성을 생성하는 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 및 지역색을 나타내는 단어 중 적어도 하나에 대한 패턴을 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
  6. 제1항에 있어서,
    상기 메타데이터 저장부는 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나를 저장하는 멀티 채널 오디오 데이터의 시각화 장치.
  7. 제1항에 있어서,
    상기 텍스트는 오디오 생성 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 출신 지역, 음향에 대응되는 자막, 및 경고 중 적어도 하나에 대한 정보를 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
  8. 제1항에 있어서,
    상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하는 모니터를 더 포함하고, 상기 텍스트는 상기 채널 정보 및 상기 비디오 구간 정보에 기초하여 상기 비디오 데이터와 대응되도록 출력되는 멀티 채널 오디오 데이터의 시각화 장치.
  9. 제8항에 있어서,
    상기 모니터는 상기 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 상기 검출된 오디오 데이터의 미리 정해진 우선순위에 비례하는 사이즈로 표시하는 멀티 채널 오디오 데이터의 시각화 장치.
  10. 제1항에 있어서,
    상기 기준 패턴은 미리 정해진 검출 대상이 되는 언어의 종류 및 미리 정해진 사용자 언어의 종류를 포함하고,
    상기 변환부는 상기 검출된 오디오 데이터를 상기 미리 정해진 검출 대상이 되는 언어의 종류 및 상기 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환하는 멀티 채널 오디오 데이터의 시각화 장치.
  11. 채널별로 비디오 데이터와 오디오 데이터를 수신하는 단계;
    상기 오디오 데이터를 주파수 특성별로 분리하는 단계;
    주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 단계;
    검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 단계; 및
    상기 텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 단계를 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
  12. 제11항에 있어서,
    상기 오디오 데이터를 상기 주파수 특성별로 분리하는 단계는,
    상기 오디오 데이터를 오디오를 생성하는 주체별로 분리하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.
  13. 제11항에 있어서,
    상기 오디오 데이터를 상기 주파수 특성별로 분리하는 단계는,
    미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 상기 오디오 데이터를 분리하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.
  14. 제11항에 있어서,
    상기 기준 패턴은 미리 정해진 음성에 대한 패턴, 미리 정해진 음향에 대한 패턴, 및 미리 정해진 오디오의 단절에 대한 패턴 중 적어도 하나를 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
  15. 제14항에 있어서,
    상기 미리 정해진 음성에 대한 패턴은 음성을 생성하는 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 및 지역색을 나타내는 단어 중 적어도 하나에 대한 패턴을 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
  16. 제11항에 있어서,
    상기 비디오 데이터의 메타데이터를 저장하는 단계는,
    상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나를 저장하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.
  17. 제11항에 있어서,
    상기 텍스트는 오디오 생성 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 출신 지역, 음향에 대응되는 자막, 및 경고 중 적어도 하나에 대한 정보를 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
  18. 제11항에 있어서,
    상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하고, 상기 채널 정보 및 상기 비디오 구간 정보에 기초하여 상기 텍스트가 상기 비디오 데이터와 대응되도록 출력하는 단계를 더 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
  19. 제18항에 있어서,
    상기 검출된 오디오 데이터의 우선순위를 판단하는 단계를 더 포함하고,
    상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하는 단계는,
    상기 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 상기 우선순위에 비례하는 사이즈로 표시하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.
  20. 제11항에 있어서,
    상기 기준 패턴은 미리 정해진 검출 대상이 되는 언어의 종류 및 미리 정해진 사용자 언어의 종류를 포함하고,
    상기 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 단계는,
    상기 검출된 오디오 데이터를 상기 미리 정해진 검출 대상이 되는 언어의 종류 및 상기 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.
PCT/KR2015/000896 2014-07-22 2015-01-28 멀티 채널 오디오 데이터의 시각화 장치 및 방법 WO2016013740A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140092663A KR20160011490A (ko) 2014-07-22 2014-07-22 멀티 채널 오디오 데이터의 시각화 장치 및 방법
KR10-2014-0092663 2014-07-22

Publications (1)

Publication Number Publication Date
WO2016013740A1 true WO2016013740A1 (ko) 2016-01-28

Family

ID=55163251

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/000896 WO2016013740A1 (ko) 2014-07-22 2015-01-28 멀티 채널 오디오 데이터의 시각화 장치 및 방법

Country Status (2)

Country Link
KR (1) KR20160011490A (ko)
WO (1) WO2016013740A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806677A (zh) * 2018-02-14 2018-11-13 美律电子(深圳)有限公司 音频处理装置及音频处理方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4203502A4 (en) 2020-11-16 2024-03-06 Samsung Electronics Co Ltd ELECTRONIC DEVICE AND ITS CONTROL METHOD

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005209000A (ja) * 2004-01-23 2005-08-04 Sueo Sugimoto 音声可視化方法及び該方法を記憶させた記録媒体
JP2009073417A (ja) * 2007-09-21 2009-04-09 Nissan Motor Co Ltd 騒音制御装置および方法
KR20110095196A (ko) * 2010-02-16 2011-08-24 윤재민 음장표시 디지털 비디오 레코더 시스템 및 그것의 운용 방법
JP2012234378A (ja) * 2011-05-02 2012-11-29 Nippon Signal Co Ltd:The 交通情報板システム
JP2013131153A (ja) * 2011-12-22 2013-07-04 Welsoc Co Ltd 自律型防犯警戒システム及び自律型防犯警戒方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6011854A (en) 1997-09-18 2000-01-04 Sony Corporation Automatic recognition of audio information in a broadcast program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005209000A (ja) * 2004-01-23 2005-08-04 Sueo Sugimoto 音声可視化方法及び該方法を記憶させた記録媒体
JP2009073417A (ja) * 2007-09-21 2009-04-09 Nissan Motor Co Ltd 騒音制御装置および方法
KR20110095196A (ko) * 2010-02-16 2011-08-24 윤재민 음장표시 디지털 비디오 레코더 시스템 및 그것의 운용 방법
JP2012234378A (ja) * 2011-05-02 2012-11-29 Nippon Signal Co Ltd:The 交通情報板システム
JP2013131153A (ja) * 2011-12-22 2013-07-04 Welsoc Co Ltd 自律型防犯警戒システム及び自律型防犯警戒方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806677A (zh) * 2018-02-14 2018-11-13 美律电子(深圳)有限公司 音频处理装置及音频处理方法
CN108806677B (zh) * 2018-02-14 2020-10-13 美律电子(深圳)有限公司 音频处理装置及音频处理方法

Also Published As

Publication number Publication date
KR20160011490A (ko) 2016-02-01

Similar Documents

Publication Publication Date Title
CN105516651B (zh) 用于在成像设备中提供组合摘要的方法和设备
WO2018070780A1 (en) Electronic device and method for controlling the same
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
WO2018070639A1 (ko) 전자 장치 및 전자 장치의 오디오 신호 처리 방법
WO2014046401A1 (ko) 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법
US10878819B1 (en) System and method for enabling real-time captioning for the hearing impaired via augmented reality
WO2012169737A2 (en) Display apparatus and method for executing link and method for recognizing voice thereof
EP2891084A1 (en) Display device and speech search method
WO2016013740A1 (ko) 멀티 채널 오디오 데이터의 시각화 장치 및 방법
WO2015163684A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2022080774A1 (ko) 말 장애 평가 장치, 방법 및 프로그램
WO2020045753A1 (ko) 클라우드 서비스를 이용한 영상 콘텐츠의 음성 추출 및 기계번역 연동 서비스 제공 시스템 및 방법
KR101475177B1 (ko) 비상 호출 cctv 시스템 및 그 방법
WO2021251539A1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
WO2020235910A1 (en) Text reconstruction system and method thereof
KR100905438B1 (ko) 음성인식에 기반한 보안시스템 및 이를 이용한 보안방법
WO2014200187A1 (ko) 모음 약화를 학습하기 위한 장치 및 그 방법
WO2021091145A1 (en) Electronic apparatus and method thereof
WO2018074658A1 (ko) 하이브리드 자막 효과 구현 단말 및 방법
WO2016137071A1 (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2023128186A1 (ko) 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법
WO2023063718A1 (en) Method and system for device feature analysis to improve user experience
WO2021096279A1 (ko) 내시경 검사 중 병변이 발견된 위치에서의 데이터 입력 방법 및 상기 데이터 입력 방법을 수행하는 컴퓨팅 장치
WO2013147374A1 (ko) 멀티 채널 분석을 이용한 비디오 스트림 분석 방법
WO2022065537A1 (ko) 자막 동기화를 제공하는 영상 재생 장치 및 그 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15824586

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15824586

Country of ref document: EP

Kind code of ref document: A1