WO2013085278A1 - 선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법 - Google Patents

선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법 Download PDF

Info

Publication number
WO2013085278A1
WO2013085278A1 PCT/KR2012/010480 KR2012010480W WO2013085278A1 WO 2013085278 A1 WO2013085278 A1 WO 2013085278A1 KR 2012010480 W KR2012010480 W KR 2012010480W WO 2013085278 A1 WO2013085278 A1 WO 2013085278A1
Authority
WO
WIPO (PCT)
Prior art keywords
protrusion
map
images
generating
unit
Prior art date
Application number
PCT/KR2012/010480
Other languages
English (en)
French (fr)
Inventor
이민호
장영민
정성문
김범휘
박형민
김민욱
Original Assignee
경북대학교 산학협력단
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020110129935A external-priority patent/KR101314687B1/ko
Priority claimed from KR1020120030718A external-priority patent/KR101353936B1/ko
Application filed by 경북대학교 산학협력단, 서강대학교산학협력단 filed Critical 경북대학교 산학협력단
Priority to US14/363,170 priority Critical patent/US9355641B2/en
Publication of WO2013085278A1 publication Critical patent/WO2013085278A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Definitions

  • the present invention relates to a monitoring apparatus and a monitoring method, and more particularly, to a monitoring apparatus and a monitoring method using a selective attention model based on visual and audio fusion information.
  • the monitoring device performs a function of accurately identifying the input image and sound using sensor technology.
  • the sensor technology used in monitoring devices began by mimicking human sensory organs. Recently, the importance of active artificial visual system and speech recognition system has been highlighted among sensor technologies.
  • an object of the present invention is to provide a monitoring device that provides a gaze path similar to a human by using an ambient concentration model based on visual / audio fusion information.
  • another object of the present invention is to provide a monitoring device that can easily perform the speech recognition by accurately grasp the speaking time of the speaker to be monitored using the ambient concentration model based on visual and auditory convergence information. .
  • the monitoring device for achieving the above object, the input unit for receiving a plurality of images photographed at a spaced position and a plurality of sound sources heard at the spaced position, a plurality of mono for each of the plurality of images Protrusion map generation unit for generating a protrusion map, and generating a dynamic protrusion map using the generated plurality of mono protrusion map, a position determination unit for analyzing the plurality of sound sources to determine the position of the sound source, the generated dynamic A gaze path recognition unit configured to generate gaze paths for the plurality of images based on the protrusion map and the determined sound source position, and an output unit to output the generated gaze paths.
  • the protrusion map generation unit an image information extraction unit for extracting at least one image information of the brightness, edge, symmetry, and complementary colors for the input image, the center-surround difference of the extracted image information (Center-surround) Difference:
  • a CSD processing unit for outputting at least one feature map of a brightness feature map, a directional feature map, a symmetry feature map, and a color feature map by performing normalization processing, and an independent decomposition for the output feature map.
  • the component analysis may include an ICA processing unit for generating a mono protrusion map.
  • the protrusion map generation unit may further include a merge unit that generates a dynamic protrusion map by merging a plurality of mono protrusion maps generated by the ICA processing unit.
  • the protrusion map generator may generate the plurality of mono protrusion maps using a biological-based selective ambient concentration model.
  • the gaze path recognition unit reinforces or suppresses a plurality of salient points included in the generated dynamic salient map based on the determined sound source position to prioritize the salient points.
  • the gaze path may be generated according to the given priority.
  • the input unit may receive a plurality of images and a plurality of sound sources at predetermined time intervals.
  • the monitoring method in the monitoring device the step of receiving a plurality of images taken from the spaced position and a plurality of sound sources heard from the spaced apart position, a plurality of mono projection for each of the plurality of images Generating a map, generating a dynamic protrusion map using the generated plurality of mono protrusion maps, analyzing the plurality of sound sources to determine the position of the sound source, the generated dynamic protrusion map and the determination Generating a gaze path for the plurality of images based on the acquired sound source position and outputting the generated gaze path.
  • the generating of the plurality of mono protrusion maps may include extracting at least one image information of brightness, edge, symmetry, and complementary colors for each of the plurality of input images; Performing a center-surround difference (CSD) and normalization process to output at least one feature map of a brightness feature map, a direction feature map, a symmetry feature map, and a color feature map; and
  • the method may include generating a mono protrusion map by performing independent component analysis.
  • the dynamic protrusion map may be generated by merging the generated plurality of mono protrusion maps.
  • the plurality of mono protrusion maps may be generated using a biologically-based selective ambient concentration model.
  • the generating of the gaze path may include reinforcing or suppressing a plurality of salient points included in the generated dynamic salient map based on the determined sound source position, thereby generating a plurality of salient points.
  • Priority may be given and a gaze path may be generated according to the given priority.
  • the receiving of the input may include receiving a plurality of images and a plurality of sound sources at predetermined time intervals.
  • the monitoring device the input unit for receiving a plurality of images and sound sources photographed by the user, a detection unit for detecting the user's lip region in each of the plurality of images, the detected lip region of each of the plurality of images
  • Protrusion map generation unit for generating a dynamic protrusion map for the information acquisition unit for obtaining the movement information of the lips by using the generated dynamic protrusion map, based on the acquired motion information for speech recognition of the input sound source It may include a speech recognition unit for performing and an output unit for outputting the results of the speech recognition.
  • the detector may include a face detector that detects a face area of the user in each of the plurality of images, and a lip detector that detects a lip area of the user within the detected face area.
  • the face detector may detect a face region of a user using an Adaboost algorithm
  • the lip detector may detect a lip region using a pre-stored template.
  • the lip detector may generate a plurality of extracted images by extracting the detected lip regions from each of the plurality of images.
  • the protrusion map generator may generate a plurality of mono protrusion maps for each of the generated plurality of extracted images, and generate a dynamic protrusion map by using the generated plurality of mono protrusion maps.
  • the motion information may include at least one viewpoint information among talking viewpoint information of the user, chunking viewpoint information, and viewpoint information at which the user ends.
  • the voice recognition unit may perform only voice recognition on a sound source input during a user's speaking time based on the acquired motion information.
  • the input unit receives a plurality of sound sources listened to at mutually spaced apart position
  • the sound source recognition device further comprises a position determination unit for determining the generation position of the sound source by analyzing the plurality of sound sources
  • the voice The recognition unit may perform voice recognition on the input sound source based on the acquired motion information and the determined sound source generation position.
  • the monitoring method may include receiving a plurality of images and sound sources captured by a user, detecting a lip region of the user from each of the plurality of images, and detecting detected lip regions of each of the plurality of images.
  • Generating a dynamic protrusion map for the step acquiring motion information of the lips using the generated dynamic protrusion map, performing voice recognition on the input sound source based on the acquired motion information, and Outputting the result of speech recognition.
  • the detecting may include detecting a face region of the user in each of the plurality of images and detecting a lip region of the user within the detected face region.
  • the detecting of the face area may include detecting a face area of the user using an Adaboost algorithm, and the detecting of the lip area may detect a lip area using a pre-stored template.
  • the method may further include generating a plurality of extracted images by extracting the detected lip regions from each of the plurality of images.
  • the generating of the dynamic protrusion map may include generating a plurality of mono protrusion maps for each of the generated plurality of extracted images, and generating a dynamic protrusion map by using the generated plurality of mono protrusion maps.
  • the motion information may include at least one viewpoint information among talking viewpoint information of the user, chunking viewpoint information, and viewpoint information at which the user ends.
  • only the voice recognition for the sound source input during the user's speaking time may be performed based on the acquired motion information.
  • the receiving of the input may include receiving a plurality of sound sources heard at mutually spaced positions, and the sound source recognition method may further include analyzing the plurality of sound sources to determine a generation position of the sound source.
  • the performing of voice recognition may perform voice recognition on the input sound source based on the acquired motion information and the determined sound source generation position.
  • the monitoring device and the monitoring method according to the present embodiment by combining the visual and audio information, providing a human-like gaze path that takes into account the dynamic movement of the image and the position of the sound source at the same time, a high reliability monitoring device and Monitoring methods can be provided.
  • the monitoring apparatus and the monitoring method according to the present embodiment by combining the visual and auditory information can detect the talk time, chunking time, and end time of the speaker to be monitored, and selectively select the sound source to be speech recognition have.
  • FIG. 1 is a block diagram showing the configuration of a monitoring apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a monitoring apparatus according to a first embodiment of the present invention
  • FIG. 3 is a block diagram illustrating a specific configuration of a protrusion map generating unit of a monitoring apparatus according to a first embodiment of the present invention
  • FIG. 4 is a view for explaining the operation of the position determining unit of the monitoring apparatus according to the first embodiment of the present invention
  • FIG. 5 is a view for explaining the operation of the protrusion map generating unit of the monitoring apparatus according to the first embodiment of the present invention
  • FIG. 6 is a flowchart illustrating an operation of a monitoring method according to a first embodiment of the present invention
  • FIG. 7 is a block diagram showing the configuration of a monitoring apparatus according to a second embodiment of the present invention.
  • FIG. 8 is a view for explaining a detailed configuration of the face detection unit of the monitoring apparatus according to a second embodiment of the present invention.
  • FIG. 9 is a view for explaining a detailed configuration of the lip detection unit of the monitoring device according to a second embodiment of the present invention.
  • FIG. 10 is a view for explaining the operation of the protrusion map generating unit of the monitoring apparatus according to the second embodiment of the present invention.
  • FIG. 11 is a view for explaining the operation of the position determining unit of the monitoring apparatus according to a second embodiment of the present invention.
  • FIG. 12 is a view for explaining the operation of the monitoring apparatus according to a second embodiment of the present invention.
  • FIG. 13 is a flowchart illustrating an operation of a monitoring method according to a second embodiment of the present invention.
  • the monitoring device of the present invention can be implemented as a security system, a surveillance system and a vision system of a robot.
  • FIG. 1 is a block diagram showing the configuration of a monitoring apparatus according to an embodiment of the present invention.
  • the monitoring apparatus 100 includes an input unit 110, an output unit 120, a storage unit 130, a protrusion map generator 140, and a voice / visual path recognition unit 150. ) And the controller 160.
  • the input unit 110 receives a plurality of captured images and a plurality of listened sound sources.
  • the input unit 110 may receive a plurality of images captured by a photographing device such as an external digital camera or an external camcorder.
  • the input unit 110 may receive a plurality of sound sources through a microphone having a plurality of channels.
  • the above has been shown and described as receiving an image and sound source from an external device, in the implementation may be implemented in the form that the imaging device and / or audio reading device is provided in the monitoring device (100).
  • the output unit 120 may output the recognized voice and the gaze path.
  • the output unit 120 may be implemented as a display device such as a monitor, and the image is inputted through the input unit 110 and the corresponding image.
  • the gaze path of the eye may be displayed together.
  • the output unit 120 may display a voice recognition result.
  • the gaze path refers to a path for monitoring where information amount is generated by analyzing information amount, that is, a path to focus attention.
  • the output unit 120 may transmit the recognized voice and gaze path to an external device.
  • the storage unit 130 stores a plurality of input images and a plurality of input sound sources.
  • the storage 130 may store a plurality of images and a plurality of sound sources input by the input unit 110 described above.
  • the storage unit 130 may temporarily store the protrusion map generated by the protrusion map generator 140 to be described later, and temporarily store the gaze path and the voice recognition result generated by the voice / eye path recognition unit 160 to be described later. It may be.
  • the storage unit 130 may be a memory mounted in the gaze path providing apparatus 100, for example, a ROM, a flash memory or an HDD, and an external HDD or a memory card connected to the gaze path providing apparatus 100.
  • a memory mounted in the gaze path providing apparatus 100 for example, a ROM, a flash memory or an HDD, and an external HDD or a memory card connected to the gaze path providing apparatus 100.
  • it may be a flash memory (M / S, xD, SD, etc.) or a USB memory.
  • the protrusion map generating unit 140 generates a dynamic protrusion map by using each of the plurality of images. Detailed operations and configurations of the protrusion map generation unit 140 will be described in detail with reference to the following embodiments.
  • the voice / line of sight path recognition unit 150 recognizes the voice and the line of sight using the generated dynamic protrusion map. Specific speech recognition and gaze path recognition will be described in detail in the following embodiments.
  • the function of the voice / gaze path recognition unit 150 may be implemented in the form of being integrated into the protrusion map generation unit 140.
  • the controller 160 controls each component of the monitoring device 100.
  • the controller 160 may control the protrusion map generator 150 to generate a dynamic protrusion map for the plurality of input images. .
  • the monitoring device 100 by combining visual and audio information, provides a human-like gaze path that considers the dynamic movement of an image and the location of a sound source simultaneously, thereby providing a high reliability monitoring device. Can provide.
  • the monitoring apparatus 100 of FIG. 1 may fuse the visual and auditory information to detect a speaking point, a chunking point, and an ending point of a speaker to be monitored, and selectively select a sound source for performing speech recognition.
  • the first embodiment is an example of the monitoring device 100 that provides a gaze path similar to a human
  • the second embodiment is an example of the monitoring device 100 that provides highly reliable speech recognition.
  • Each of the first and second embodiments may be implemented by different monitoring apparatuses, or may be implemented by one monitoring apparatus having the configuration of the first and second exemplary embodiments.
  • the monitoring device 100 according to the first embodiment may be implemented as a gaze path providing device
  • the monitoring device 100 according to the second embodiment may be implemented as a voice recognition device.
  • FIG. 2 is a block diagram showing the configuration of the monitoring apparatus 100 according to the first embodiment of the present invention.
  • the monitoring apparatus 100 may include an input unit 110, an output unit 120, a storage unit 130, a protrusion map generator 140, and a voice / visual path recognition unit ( 150 and the controller 160.
  • the monitoring device it will be described as being simply used as a device for grasping the gaze path to be selectively focused, but the monitoring device according to the present embodiment is a configuration of a gaze path providing device, a robot vision system, a security system and a surveillance system. It may be implemented as.
  • the gaze path refers to a path for monitoring a place where a large amount of information is generated by analyzing the amount of information, that is, a path for attention.
  • the input unit 110 receives a plurality of images photographed at spaced locations and a plurality of sound sources heard at spaced locations.
  • the input unit 110 may receive a plurality of images photographed by a photographing device such as an external digital camera and an image reading apparatus (scanner).
  • the input unit 110 may receive a plurality of sound sources through a microphone having a plurality of channels.
  • the output unit 120 may output the generated gaze path.
  • the output unit 120 may be implemented as a display device such as a monitor, and may display an image received through the input unit 110 and a gaze path for the corresponding image.
  • the storage unit 130 stores a plurality of input images and a plurality of input sound sources.
  • the storage 130 may store a plurality of images and a plurality of sound sources input by the input unit 110 described above.
  • the storage unit 130 may temporarily store the protrusion map generated by the protrusion map generator 140 to be described later, and may temporarily store the gaze path generated by the gaze path generator 152 which will be described later.
  • the storage unit 130 may be a memory mounted in the monitoring apparatus 100, for example, a ROM, a flash memory or an HDD, and an external HDD or a memory card connected to the monitoring apparatus 100, for example, a flash memory. (Flash Memory: M / S, xD, SD, etc.) or USB memory.
  • the protrusion map generation unit 140 generates a plurality of mono protrusion maps for each of the plurality of images, and generates a dynamic protrusion map using the generated plurality of mono protrusion maps. A detailed operation and configuration of the protrusion map generator 140 will be described later with reference to FIG. 3.
  • the voice / line of sight path recognizer 150 may include a position determiner 151 and a line of sight path recognizer 152.
  • the position determiner 151 analyzes a plurality of sound sources (eg, stereo sound sources) to determine the position of the sound source.
  • the position determining unit 151 may determine the position where the sound source is generated by analyzing phase differences between the plurality of input sound sources. Since this operation is a well known technique, a detailed description thereof will be omitted.
  • the location determiner 151 is described as one configuration of the voice / line of sight path recognizer 150, but may be implemented as one configuration of a separate and independent monitoring device 100.
  • the gaze path recognition unit 152 generates a gaze path for a plurality of images based on the generated dynamic protrusion map and the determined sound source position. Specifically, the gaze path generator 152 may reinforce or process the plurality of protrusion points included in the dynamic protrusion map generated by the protrusion map generator 140 based on the sound source position determined by the position determiner 151. The suppression process may be performed to give priority to the plurality of protruding points, and to generate and recognize the gaze path according to the given priority.
  • the function of the voice / gaze path recognition unit 150 may be implemented in the form of being integrated into the protrusion map generation unit 150.
  • the operation of the voice / line of sight path recognizer 150 may use a biological-based selective ambient concentration model.
  • the biological-based selective ambient modeling modeled the process of human rejection structure and processing, and divided into concept-driven processing process using data-driven processing process and learned information that reacts immediately to input image. Lose.
  • the data-driven process and the concept-driven process are well known technologies, and detailed explanations thereof are omitted.
  • the controller 160 controls each component of the monitoring device 100.
  • the controller 160 may control the protrusion map generator 140 to generate a dynamic protrusion map for the plurality of input images.
  • the position determiner 151 may be controlled to determine sound source positions of the plurality of sound sources.
  • the controller 160 may control the gaze path generator 151 to generate a gaze path of the user based on the generated dynamic protrusion map and the sound source location.
  • the controller 160 may control the output unit 120 to display the generated gaze path.
  • the monitoring apparatus 100 since the monitoring apparatus 100 according to the present embodiment fuses visual and audio information and simultaneously considers the dynamic movement of the image and the location of the sound source, the monitoring apparatus 100 may generate and recognize the gaze path with high reliability in selecting information. It becomes possible.
  • the generated gaze path is stored in the storage unit 130, printed through a printing device, or in a specific device. It may also be implemented in the form of being transmitted.
  • FIG. 3 is a block diagram illustrating a detailed configuration of the protrusion map generating unit of the monitoring apparatus according to the first embodiment of the present invention.
  • the protrusion map generator 140 includes an image information extractor 141, a CSD processor 142, an ICA processor 143, and a merger 144.
  • the second natural image refers to an image that is input with a predetermined time difference ⁇ t after the First Natral image.
  • the image information extractor 141 extracts image information about brightness I, edge E, and complementary colors RG and BY of the input image. Specifically, at least one image information among brightness, edge, symmetry, and complementary colors of the input image may be extracted based on R (Red), G (Green), and B (Ble) values of the input image.
  • the CSD processor 142 may generate a brightness feature map, a directional feature map, a symmetry feature map, and a color feature map by performing a center-surround difference (CSD) and normalization process on the extracted image information. .
  • CSD center-surround difference
  • the ICA processing unit 143 generates a mono salient map (SM) by performing independent component analysis on the output feature map.
  • SM mono salient map
  • the image information extracting unit 141, the CSD processing unit 142, and the ICA processing unit 143 generate a mono protrusion map for each image.
  • the merge unit 144 merges the plurality of mono protrusion maps generated by the ICA processor 143 with a time difference ⁇ t to generate a dynamic protrusion map.
  • the dynamic protrusion map may be generated by Equations 1 to 2 below.
  • Sp (v) is a bottom-up protrusion map without considering depth information
  • L (sp.v. ⁇ ) is a Laplace equation as shown in Equation (2).
  • the protruding protrusion regions may be regions of no interest to humans or may be regions of greater interest. . This is because the protrusion map is generated using only primitive features such as complementary color and brightness, edge, and symmetry information. In order to solve this problem, it is possible to suppress / reinforce each of the protruding regions of the dynamic salient map by reflecting the audio information. This behavior can be modeled with Fuzzy ART neural network.
  • FIG. 4 is a view for explaining the operation of the position determiner of the monitoring apparatus according to the first embodiment of the present invention.
  • the position determiner 151 analyzes the spectrum of each sound source, and through the spectrum of each analyzed sound source, The location generated can be predicted.
  • FIG 5 is a view for explaining the operation of the protrusion map generating unit of the monitoring apparatus according to the first embodiment of the present invention.
  • a plurality of protrusion maps 510 generated by the ICA processor 143, a dynamic protrusion map 520 generated by the merger 144, and a final protrusion map 530 are displayed.
  • the plurality of mono protrusion maps (510) are protrusions corresponding to each of the plurality of images inputted at a time difference through the input unit (110).
  • the dynamic protrusion map 520 is a protrusion map generated by merging a plurality of mono protrusion maps output from the ICA processor 144.
  • the final protrusion map 430 is a protrusion map generated by reinforcing and suppressing the protrusion region of the dynamic protrusion map 520 according to the position of the sound source determined by the position determining unit 151.
  • FIG. 6 is a flowchart illustrating an operation of a monitoring method according to a first embodiment of the present invention.
  • the plurality of images photographed at the spaced position and the plurality of sound sources heard at the spaced position are received (S610).
  • a plurality of images photographed by a photographing apparatus such as an external digital camera or an image reading apparatus (scanner) may be input.
  • a plurality of sound sources may be input through a microphone having a plurality of channels.
  • a plurality of mono protrusion maps are generated for each of the plurality of images. Specifically, at least one image information of brightness, edge, symmetry, and complementary colors for each of the plurality of input images is extracted, and a center-surround difference (CSD) and normalization process for the extracted image information is performed. Outputs at least one feature map of a brightness feature map, a directional feature map, a symmetry feature map, and a color feature map, and generates a mono protrusion map by performing independent component analysis on the output feature map. can do.
  • CSD center-surround difference
  • a dynamic protrusion map is generated using the generated plurality of mono protrusion maps (S630).
  • the dynamic protrusion map may be generated by merging a plurality of generated mono protrusion maps.
  • the location of the sound source is determined by analyzing a plurality of sound sources (S640). Specifically, the position where the sound source is generated may be determined by analyzing the phase difference between the plurality of input sound sources. Meanwhile, the determining of the position of the sound source may be performed before generating the mono protrusion map (S620).
  • a gaze path for a plurality of images is generated based on the generated dynamic protrusion map and the determined sound source position (S650). Specifically, reinforcement or suppression is performed on the plurality of protrusion points included in the generated dynamic protrusion map to give priority to the plurality of protrusion points, and according to the assigned priority.
  • a gaze path may be generated.
  • the generated gaze path is output (S660).
  • the gaze path generated through the display device such as a monitor may be output.
  • the plurality of input images and the gaze paths of the plurality of images may be displayed together.
  • the monitoring method according to the present embodiment fuses the visual and auditory information and considers the dynamic movement of the image and the position of the sound source at the same time, thereby generating a gaze path with high reliability in selecting information.
  • the monitoring method as shown in FIG. 6 may be executed on the monitoring apparatus having the configuration of FIG. 2 or may be executed on the monitoring apparatus having other configurations.
  • the monitoring apparatus 100 according to the second embodiment is an embodiment of the monitoring device 100 that provides highly reliable voice recognition and may be implemented as a voice recognition device.
  • FIG. 7 is a block diagram showing the configuration of the monitoring device 100 according to a second embodiment of the present invention.
  • the monitoring apparatus 100 may include an input unit 110, an output unit 120, a storage unit 130, a protrusion map generator 140, and a voice / line of sight recognition unit 150. ) And the controller 160.
  • the monitoring device it will be described as being simply used as a device for detecting only voice recognition, but the monitoring device according to the present embodiment may be implemented in one configuration, such as a robot vision system, a security system, and a surveillance system.
  • the input unit 110 receives a plurality of images and sound sources captured by the user.
  • the input unit 110 may receive a plurality of images captured by a photographing device such as an external digital camera or an external camcorder.
  • the input unit 110 may receive a sound source through an external microphone.
  • the implementation may be implemented in the form that the imaging device and / or audio reading device is provided in the monitoring device (100).
  • the input unit 110 may receive a plurality of sound sources that are heard at positions spaced apart from each other.
  • the sound source may be provided to the position determiner 151 described later.
  • the output unit 120 may output a result of speech recognition.
  • the output unit 120 may be implemented as a display device such as a monitor.
  • the output unit 120 may display a result of food recognition in the voice recognition unit 154 which will be described later.
  • the output unit 120 may transmit a result of the voice recognition to the external device.
  • the storage unit 130 stores a plurality of input images and input sound sources.
  • the storage unit 130 may store a plurality of images and sound sources input by the input unit 110 described above.
  • the storage unit 130 may temporarily store the region information and the extracted image detected by the detection unit 145 to be described later, and temporarily store the protrusion map generated by the generation unit 146, which will be described later.
  • the information acquired at 153 and the result of speech recognition may be temporarily stored in the speech recognition unit 154 to be described later.
  • the storage unit 130 may be a memory mounted in the monitoring apparatus 100, for example, a ROM, a flash memory or an HDD, and an external HDD or a memory card connected to the monitoring apparatus 100, for example, a flash memory. (Flash Memory: M / S, xD, SD, etc.) or USB memory.
  • the protrusion map generator 140 may include a detector 145 and a generator 146 to generate a protrusion map.
  • the detector 145 detects a lip region of the user in each of the plurality of images.
  • the detector 145 may include a face detector (not shown) and a lip detector (not shown).
  • the face detector detects a face region of the user in each of the plurality of images.
  • the face detector may detect a user face region in each of the plurality of images by using an Adaboost algorithm. A detailed operation of the face detector will be described later with reference to FIG. 8.
  • the lip detector detects a lip region of the user within the detected face region.
  • the lip detector may detect a lip region among the face regions detected by the face detector using a pre-stored template.
  • the lip detector may extract a lip region detected from each of the plurality of images to generate a plurality of extracted images. A detailed operation of the lip detector will be described later with reference to FIG. 9.
  • the generation unit 146 generates a dynamic protrusion map for the detected lip region of each of the plurality of images.
  • the generation unit 146 may generate a plurality of mono protrusion maps using a plurality of extracted images generated by the lip detection unit of the detector 145, and generate a dynamic protrusion map using the generated mono protrusion maps. have. A detailed operation of the generation unit 146 will be described later with reference to FIG. 4.
  • the voice / line of sight recognizer 150 may include a location determiner 151, an information acquirer 152, and a voice recognizer 154.
  • the position determiner 151 analyzes a plurality of sound sources (eg, stereo sound sources) to determine the position of the sound source.
  • the position determining unit 151 may determine the position where the sound source is generated by analyzing phase differences between the plurality of input sound sources.
  • the use and use of only two channels have been illustrated and described. However, in the implementation, it is also possible to use a sound source having four channels. This will be described later with reference to FIG. 11.
  • the position determination unit 151 has been described as one configuration of the voice / line of sight path recognition unit 150, but is not limited to this may be implemented in a separate and independent configuration.
  • the information acquisition unit 153 acquires movement information of the lips using the generated dynamic protrusion map.
  • the information acquisition unit 153 may use the generated dynamic protrusion map to grasp the point in time at which the user speaks, the chunking point, and the end point of the horse, and acquire motion information corresponding thereto. This will be described later with reference to FIG. 12.
  • the information acquisition unit 153 has been described as one configuration of the voice / line of sight path recognition unit 150, the information acquisition unit 153 may be implemented as a separate and independent configuration.
  • the voice recognition unit 154 performs voice recognition on the input sound source based on the acquired motion information.
  • the voice recognition unit 154 may perform sound source recognition using only the sound source at the time when the user actually speaks based on the acquired motion information.
  • the sound source recognition unit 154 may perform voice recognition on the sound source based on the acquired motion information and the sound source generation position determined by the position determining unit 151.
  • a specific technique for performing speech recognition using a sound source a conventionally known method may be used.
  • the controller 160 controls each component of the monitoring device 100.
  • the controller 160 controls the detector 145 to detect the lip regions of each of the plurality of input images, and dynamically adjusts the detected lip regions.
  • the protrusion map generator 140 may be controlled to generate the protrusion map.
  • the controller 160 may control the position determiner 151 to determine the position of the input sound source.
  • the controller 160 controls the information acquisition unit 153 to acquire motion information based on the generated dynamic protrusion map, and performs voice recognition on the input sound source based on the acquired motion information and the location of the sound source.
  • the voice recognition unit 154 may be controlled to be able to.
  • the monitoring apparatus 100 may detect the talker's speaking time, the chunking time, and the ending time by using the visual information, and selectively select a sound source to be subjected to voice recognition.
  • the visual information and the location of the sound source are considered at the same time, sound source recognition can be performed with high reliability.
  • FIG. 8 is a view for explaining a detailed configuration of the face detection unit of the monitoring apparatus according to the second embodiment of the present invention.
  • the face detector 800 detects a face region of a user using a biological based selective attention module.
  • the face detector 800 may include an image information extractor 810, a CSD processor 820, and an ICA processor 830.
  • the image information extracting unit 810 extracts image information about brightness (I), edge (E), and complementary colors (RG, BY) of the input image. Specifically, at least one image information among brightness, edge, symmetry, and complementary colors of the input image may be extracted based on R (Red), G (Green), and B (Ble) values of the input image.
  • the CSD processing unit 820 performs a center-surround difference (CSD) and normalization process on the extracted image information to display a brightness characteristic map ( ), Edge feature map ( ), Color feature map ( ) Can be created.
  • CSD center-surround difference
  • the ICA processing unit 830 generates a mono salient map (SM) by performing independent component analysis on the output feature map.
  • SM mono salient map
  • the ICA processing unit 830 may detect the face candidate area by first selecting four areas from the generated mono protrusion map with a high energy value per unit area.
  • the ICA processing unit 830 may detect the face region using the Adaboost algorithm with respect to the detected face candidate region.
  • the Adaboost algorithm is designed to design a 'strong' classifier from a linear combination of 'simple' and 'weak' classifiers.
  • the Adaboost algorithm can be used to detect facial regions in a short time using the Adaboost algorithm.
  • FIG. 9 is a view for explaining a specific configuration of the lip detection unit of the monitoring device according to a second embodiment of the present invention.
  • the lip detector defines a region (specifically, a region having a red color) that may be estimated as a lip region with respect to the face region 910 detected by the face detector, and includes a limited region and a pre-stored template ( 920), the region having the highest correlation value may be detected as the lip region.
  • the lip detector may extract and enlarge the detected lip region to generate an extracted image to be used in later work.
  • FIG. 10 is a view for explaining the operation of the protrusion map generating unit of the monitoring apparatus according to the second embodiment of the present invention.
  • the protrusion map generator 140 may generate a dynamic protrusion map using a biological-based selective attention model.
  • the protrusion map generator 140 generates a mono protrusion map for each of the extracted images (ie, the image of the lip region 1010) of the plurality of images input at the unit time.
  • the process of generating the mono protrusion map has been described with reference to FIG. 8, and thus redundant description will be omitted.
  • the protrusion map generator 140 may extract protrusion points of each of the plurality of extracted images by using the generated mono protrusion map.
  • the protrusion map generation unit 140 may generate a dynamic protrusion map by using the generated plurality of mono protrusion maps and the protrusion points of the plurality of mono protrusion maps.
  • FIG. 11 is a view for explaining the operation of the position determiner of the monitoring apparatus according to the second embodiment of the present invention.
  • the position determiner 151 analyzes the spectrum of each sound source, and analyzes each of the analyzed sound sources. Through the spectrum of the sound source can be detected the direction or location where it occurred. Specifically, the occurrence position of the sound source intensity above the threshold value may be identified using the DUET algorithm. 5 shows the results of detecting the sound source up / down and left / right through the four-channel microphone in the angular direction.
  • FIG. 12 is a view for explaining the operation of the monitoring apparatus according to a second embodiment of the present invention.
  • a face region may be detected in an input image 1210 (1220), and a lip region may be detected in an image 1230 in which a face region is detected.
  • the extracted image 1240 corresponding to the detected lip region may be generated.
  • the start time, the chunking time, and the end time of the user's talking may be detected based on the generated shape of the extracted image 1240, and the detected time may be acquired as motion information.
  • the monitoring apparatus 100 may correct the motion information by considering the generation position (or size of the sound source) of the sound source in the position determining unit 151. For example, if the user does not speak and only the mouth shape is changed, it is not necessary to perform voice recognition, but the change of the mouth shape of the user may not be acquired as motion information.
  • the user speaks. It can be judged from the point in time.
  • FIG. 13 is a flowchart illustrating an operation of a monitoring method according to a second embodiment of the present invention.
  • a plurality of images and sound sources photographing a user are received (S1310).
  • a plurality of images captured by a photographing device such as an external digital camera or an external camcorder may be input.
  • the sound source can be received through the external microphone.
  • the image pickup device and / or the audio reading device may directly generate a plurality of images, or may generate a sound source.
  • the lip region of the user is detected from each of the plurality of images.
  • the face region of the user may be detected in each of the plurality of images, and the lips region of the user may be detected within the detected face region.
  • an extracted image of the detected lip region may be generated.
  • a dynamic protrusion map of the detected lip region of each of the plurality of images is generated.
  • a plurality of mono protrusion maps may be generated using the plurality of extracted images generated in the previous step, and a dynamic protrusion map may be generated using the generated mono protrusion maps.
  • the motion information of the lips is acquired using the generated dynamic protrusion map (S1340). Specifically, by using the generated dynamic protrusion map, the time point at which the user speaks, the chunking time, and the end of the word is determined and correspondingly, Motion information can be obtained.
  • voice recognition is performed on the input sound source based on the acquired motion information.
  • the sound source recognition may be performed using only the sound source at the time when the user actually speaks based on the acquired motion information.
  • the result of speech recognition is output (S1360).
  • the monitoring method according to the present embodiment may detect the talker's speaking time, the chunking time, and the ending time by using the visual information, and selectively select a sound source to be subjected to voice recognition.
  • the visual information and the location of the sound source are considered at the same time, sound source recognition can be performed with high reliability.
  • the monitoring method as shown in FIG. 13 may be executed on the monitoring apparatus having the configuration of FIG. 7 and may also be executed on the monitoring apparatus having other configurations.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Alarm Systems (AREA)

Abstract

모니터링 장치가 개시된다. 본 모니터링 장치는, 이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 입력부, 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 돌출맵 생성부, 복수의 음원을 분석하여 음원의 위치를 판단하는 위치 판단부, 생성된 동적 돌출맵 및 판단된 음원 위치를 기초로 복수의 이미지에 대한 경로를 생성하는 시선 경로 인식부 및 생성된 시선 경로를 출력하는 출력부를 포함한다.

Description

선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법
본 발명은 모니터링 장치 및 모니터링 방법에 관한 것으로, 더욱 상세하게 는 시/청각 융합 정보에 기초하는 선택적 주의 집중 모델을 이용하는 모니터링 장치 및 모니터링 방법에 관한 것이다.
모니터링 장치는 센서기술을 이용하여 입력되는 이미지 및 음향을 정확하게 식별하는 기능을 수행한다. 모니터링 장치에 이용되는 센서기술은 인간의 감각기관을 모방하는 것으로 시작하였다. 최근에는 센서 기술 중 능동형 인공 시각 시스템 및 음성 인식 시스템의 중요성이 부각되고 있다.
그러나 지금까지 개발된 많은 인공 시각 시스템은 입력 이미지에 대해 특정 대상 검출 및 인식에 중점을 두고 있기 때문에 높은 복잡도를 갖는 실세계 환경의 자연 이미지에서 인간의 시각시스템처럼 어떻게 효과적으로 필요한 정보를 선택할 것인가 하는 시각시스템의 시작 단계의 문제에 대한 해결책을 갖지 못하는 단점이 있었다.
또한, 기존의 음성 인식 시스템은 실세계 환경에서는 잡음이 많이 존재하기 때문에 음성 신호만 이용해서는 어느 시점에 음성 인식을 수행해야 할지 결정하기가 어렵고, 화자가 아닌 잡음에 의해 음성 인식이 실행되는 경우가 빈번하게 발생하는 문제점이 있었다.
이에 따라서, 기존의 인공 시각 시스템 및 음성 인식 시스템의 한계를 극복하기 위한 방법이 요청되고 있다.
따라서, 본 발명의 목적은 시/청각 융합 정보에 기초한 주위 집중 모델을 이용하여 인간과 유사한 시선 경로를 제공하는 모니터링 장치를 제공하는데 에 있다.
한편, 본 발명의 또 다른 목적은 시/청각 융합 정보에 기초한 주위 집중 모델을 이용하여 모니터링 대상이 되는 화자의 말하는 시점을 정확히 파악하여 음성 인식을 용이하게 수행할 수 있는 모니터링 장치를 제공하는데 에 있다.
이상과 같은 목적을 달성하기 위한 본 발명에 의한 모니터링 장치는, 이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 입력부, 상기 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 돌출맵 생성부, 상기 복수의 음원을 분석하여 상기 음원의 위치를 판단하는 위치 판단부, 상기 생성된 동적 돌출맵 및 상기 판단된 음원 위치를 기초로 상기 복수의 이미지에 대한 시선 경로를 생성하는 시선 경로 인식부 및 상기 생성된 시선 경로를 출력하는 출력부를 포함한다.
여기서, 상기 돌출맵 생성부는, 상기 입력된 이미지에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하는 이미지 정보 추출부, 상기 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하는 CSD 처리부 및 상기 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성하는 ICA 처리부를 포함할 수 있다.
이 경우, 상기 돌출맵 생성부는, 상기 ICA 처리부에서 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성하는 병합부를 더 포함할 수 있다.
한편, 상기 돌출맵 생성부는, 생물학 기반의 선택적 주위 집중 모델을 이용하여 상기 복수의 모노 돌출맵을 생성할 수 있다.
한편, 상기 시선 경로 인식부는, 상기 판단된 음원 위치에 기초하여 상기 생성된 동적 돌출맵에 포함된 복수 개의 돌출 포인트(salient point)를 보강 처리 또는 억제 처리하여 상기 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 상기 부여된 우선 순위에 따라 시선 경로를 생성할 수 있다.
한편, 상기 입력부는, 기설정된 시간을 주기로 복수의 이미지 및 복수의 음원을 입력받을 수 있다.
한편, 본 실시 예에 따른 모니터링 장치에서의 모니터링 방법은, 이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 단계, 상기 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하는 단계, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 단계, 상기 복수의 음원을 분석하여 상기 음원의 위치를 판단하는 단계, 상기 생성된 동적 돌출맵 및 상기 판단된 음원 위치를 기초로 상기 복수의 이미지에 대한 시선 경로를 생성하는 단계 및 상기 생성된 시선 경로를 출력하는 단계를 포함한다.
여기서, 상기 복수의 모노 돌출맵을 생성하는 단계는, 상기 입력된 복수의 이미지 각각에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하는 단계, 상기 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하는 단계 및 상기 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성하는 단계를 포함할 수 있다.
한편, 상기 동적 돌출맵을 생성하는 단계는, 상기 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성할 수 있다.
한편, 상기 복수의 모노 돌출맵을 생성하는 단계는, 생물학 기반의 선택적 주위 집중 모델을 이용하여 상기 복수의 모노 돌출맵을 생성할 수 있다.
한편, 상기 시선 경로를 생성하는 단계는, 상기 판단된 음원 위치에 기초하여 상기 생성된 동적 돌출맵에 포함된 복수 개의 돌출 포인트(salient point)를 보강 처리 또는 억제 처리하여 상기 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 상기 부여된 우선 순위에 따라 시선 경로를 생성할 수 있다.
한편, 상기 입력받는 단계는, 기설정된 시간을 주기로 복수의 이미지 및 복수의 음원을 입력받을 수 있다.
한편, 본 실시 예에 따른 모니터링 장치는, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는 입력부, 상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 검출부, 상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 돌출맵 생성부, 상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 정보 취득부, 상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 음성 인식부 및 상기 음성 인식의 결과를 출력하는 출력부를 포함할 수 있다.
한편, 상기 검출부는, 상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 얼굴 검출부 및 상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 입술 검출부를 포함할 수 있다.
이 경우, 상기 얼굴 검출부는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고, 상기 입술 검출부는, 기저장된 탬플릿을 이용하여 입술 영역을 검출할 수 있다.
한편, 상기 입술 검출부는, 상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성할 수 있다.
한편, 상기 돌출맵 생성부는, 상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다.
한편, 상기 움직임 정보는, 사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함할 수 있다.
한편, 상기 음성 인식부는, 상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행할 수 있다.
한편, 상기 입력부는, 상호 이격된 위치에서 청취된 복수의 음원을 입력받고, 상기 음원 인식 장치는, 상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 위치 판단부를 더 포함하고, 상기 음성 인식부는, 상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행할 수 있다.
한편, 본 실시 예에 따른 모니터링 방법은, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는 단계, 상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 단계, 상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 단계, 상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 단계, 상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 단계 및 상기 음성 인식의 결과를 출력하는 단계를 포함한다.
한편, 상기 검출하는 단계는, 상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 단계 및 상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 단계를 포함할 수 있다.
이 경우, 상기 얼굴 영역을 검출하는 단계는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고, 상기 입술 영역을 검출하는 단계는, 기저장된 탬플릿을 이용하여 입술 영역을 검출할 수 있다.
한편, 상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성하는 단계를 더 포함할 수 있다.
이 경우, 상기 동적 돌출맵을 생성하는 단계는, 상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다.
한편, 상기 움직임 정보는, 사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함할 수 있다.
한편, 상기 음성 인식을 수행하는 단계는, 상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행할 수 있다.
한편, 상기 입력받는 단계는, 상호 이격된 위치에서 청취된 복수의 음원을 입력받고, 상기 음원 인식 방법은, 상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 단계를 더 포함하고, 상기 음성 인식을 수행하는 단계는, 상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행할 수 있다.
따라서, 본 실시 예에 따른 모니터링 장치 및 모니터링 방법은, 시/청각 정보를 융합하여, 영상의 동적인 움직임과 음원의 위치를 동시에 고려하는 인간과 유사한 시선 경로를 제공하여, 높은 신뢰도의 모니터링 장치 및 모니터링 방법을 제공할 수 있다.
또한, 본 실시 예에 따른 모니터링 장치 및 모니터링 방법은, 시/청각 정보를 융합하여 모니터링 대상이 되는 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원를 선별적으로 선택할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 모니터링 장치의 구성을 나타내는 블럭도,
도 2는 본 발명의 제1 실시 예에 따른 모니터링 장치의 구성을 나타내는 블럭도,
도 3은 본 발명의 제1 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 구체적인 구성을 도시한 블록도,
도 4는 본 발명의 제1 실시 예에 따른 모니터링 장치의 위치 판단부의 동작을 설명하기 위한 도면,
도 5는 본 발명의 제1 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 동작을 설명하기 위한 도면,
도 6은 본 발명의 제1 실시 예에 따른 모니터링 방법의 동작을 설명하기 위한 흐름도,
도 7은 본 발명의 제2 실시 예에 따른 모니터링 장치의 구성을 나타내는 블럭도,
도 8은 본 발명의 제2 실시 예에 따른 모니터링 장치의 얼굴 검출부의 구체적인 구성을 설명하기 위한 도면,
도 9는 본 발명의 제2 실시 예에 따른 모니터링 장치의 입술 검출부의 구체적인 구성을 설명하기 위한 도면,
도 10은 본 발명의 제2 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 동작을 설명하기 위한 도면,
도 11은 본 발명의 제2 실시 예에 따른 모니터링 장치의 위치 판단부의 동작을 설명하기 위한 도면,
도 12는 본 발명의 제2 실시 예에 따른 모니터링 장치의 동작을 설명하기 위한 도면, 그리고,
도 13은 본 발명의 제2 실시 예에 따른 모니터링 방법의 동작을 설명하기 위한 흐름도이다.
-
이하 첨부된 도면들을 참조하여 본 발명에 대하여 보다 상세하게 설명한다.
본 발명의 모니터링 장치는 보안 시스템, 감시 시스템 및 로봇의 비젼 시스템으로 구현 될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 모니터링 장치의 구성을 나타내는 블럭도이다.
도 1을 참고하면, 본 실시 예에 따른 모니터링 장치(100)는 입력부(110), 출력부(120), 저장부(130), 돌출맵 생성부(140), 음성/시선경로 인식부(150) 및 제어부(160)로 구성될 수 있다.
입력부(110)는 촬영된 복수의 이미지 및 청취된 복수의 음원을 입력받는다. 구체적으로, 입력부(110)는 외부 디지털 카메라, 외부 캠코더와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 입력부(110)는 복수의 채널을 갖는 마이크를 통하여 복수의 음원을 입력받을 수 있다.
한편, 이상에서는 외부 장치로부터 이미지 및 음원을 입력받는 것으로 도시하고 설명하였지만, 구현시 촬상 소자 및/또는 음성 독취 소자가 모니터링 장치(100)에 구비되는 형태로도 구현될 수 있다.
출력부(120)는 인식된 음성 및 시선 경로를 출력할 수 있다, 구체적으로 출력부(120)는 모니터와 같은 디스플레이 장치로 구현될 수 있으며, 입력부(110)를 통하여 입력받은 이미지와 해당 이미지에 대한 시선 경로를 함께 표시할 수 있다. 또한, 출력부는(120)는 음성 인식 결과를 표시할 수 있다.
여기서, 시선 경로란 정보량을 분석하여 정보량이 많이 발생하는 곳을 모니터링 하기 위한 경로, 즉 주의 집중할 경로를 의미한다.
한편, 출력부(120)는 인식된 음성 및 시선 경로를 외부 장치에 전송할 수도 있다.
저장부(130)는 입력된 복수의 이미지 및 입력된 복수의 음원을 저장한다. 구체적으로, 저장부(130)는 상술한 입력부(110)에서 입력된 복수의 이미지 및 복수의 음원을 저장할 수 있다. 그리고 저장부(130)는 후술할 돌출맵 생성부(140)에서 생성된 돌출맵을 임시 저장할 수 있으며, 후술할 음성/시선 경로 인식부(160)에서 생성된 시선 경로 및 음성 인식 결과를 임시 저장할 수도 있다.
그리고 저장부(130)는 시선 경로 제공장치(100) 내부에 장착된 메모리, 예를 들면 ROM, 플래시 메모리나 HDD일 수 있으며, 시선 경로 제공장치(100)와 연결된 외장형 HDD 또는 메모리 카드, 예를 들면, 플래시 메모리(Flash Memory: M/S, xD, SD 등)나 USB 메모리 등일 수도 있다.
돌출맵 생성부(140)는 복수의 이미지 각각을 이용하여, 동적 돌출맵을 생성한다. 돌출맵 생성부(140)의 구체적인 동작 및 구성에 대해서는 이하 각 실시 예에서 자세히 설명하도록 한다.
음성/시선 경로 인식부(150)는 생성된 동적 돌출맵을 이용하여 음성 및 시선 경로를 인식한다. 구체적인 음성 인식 및 시선 경로 인식은 이하 각 실시 예에서 자세히 설명하도록 한다.
한편, 음성/시선 경로 인식부(150)의 기능은 돌출맵 생성부(140)에 통합되는 형태로도 구현될 수 있다.
제어부(160)는 모니터링 장치(100)의 각 구성을 제어한다. 구체적으로, 복수의 이미지 및 복수의 음원이 입력부(110)를 통하여 입력되면, 제어부(160)는 입력된 복수의 이미지에 대한 동적 돌출맵이 생성되도록 돌출맵 생성부(150)를 제어할 수 있다.
이상에서 설명한 도 1 에 따른 따른 모니터링 장치(100)는, 시/청각 정보를 융합하여, 영상의 동적인 움직임과 음원의 위치를 동시에 고려하는 인간과 유사한 시선 경로를 제공하여, 높은 신뢰도의 모니터링 장치을 제공할 수 있다.
또한, 도 1 의 모니터링 장치(100)은, 시/청각 정보를 융합하여 모니터링 대상이 되는 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원를 선별적으로 선택할 수 있다.
이하에서는 2가지의 실시 예를 갖는 모니터링 장치(100)에 대해 설명하도록 한다. 제1 실시 예는 인간과 유사한 시선 경로를 제공하는 모니터링 장치(100)에 대한 예이며, 제2 실시 예는 신뢰성이 높은 음성 인식을 제공하는 모니터링 장치(100)에 대한 예이다. 제1 실시 예와 제2 실시 예는 각각 다른 모니터링 장치로 구현될 수도 있고, 또는 제1 실시 예와 제2 실시 예의 구성을 갖는 하나의 모니터링 장치로 구현될 수 도 있다.
한편, 제1 실시 예에 따른 모니터링 장치(100)는 시선 경로 제공 장치로 구현될 수도 있고, 제2 실시 예에 따른 모니터링 장치(100)는 음성 인식 장치로 구현될 수 있다.
이하 도 2 내지 도 6을 참고하여, 제1 실시 예에 따른 모니터링 장치(100)에 대해 설명하도록 한다.
도 2는 본 발명의 제1 실시 예에 따른 모니터링 장치(100)의 구성을 나타내는 블럭도이다.
도 2를 참고하면, 제1 실시 예에 따른 모니터링 장치(100)는 입력부(110), 출력부(120), 저장부(130), 돌출맵 생성부(140), 음성/시선 경로 인식부(150) 및 제어부(160)로 구성될 수 있다. 본 실시 예에서는 단순히 선택적으로 주의 집중할 시선 경로만을 파악하는 장치로 이용되는 것으로 설명하나, 본 실시 예에 따른 모니터링 장치는 시선 경로 제공장치, 로봇의 비전 시스템, 보안 시스템 및 서벨리언스 시스템의 일 구성으로 구현될 수도 있다.
한편, 도 1에서 설명한 바와 같이 시선 경로란 정보량을 분석하여 정보량이 많이 발생하는 곳을 모니터링 하기 위한 경로, 즉 주의 집중할 경로를 의미한다.
입력부(110)는 이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는다. 구체적으로, 입력부(110)는 외부 디지털 카메라, 화상독취장치(스캐너)와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 입력부(110)는 복수의 채널을 갖는 마이크를 통하여 복수의 음원을 입력받을 수 있다.
출력부(120)는 생성된 시선 경로를 출력할 수 있다. 구체적으로 출력부(120)는 모니터와 같은 디스플레이 장치로 구현될 수 있으며, 입력부(110)를 통하여 입력받은 이미지와 해당 이미지에 대한 시선 경로를 함께 표시할 수 있다.
저장부(130)는 입력된 복수의 이미지 및 입력된 복수의 음원을 저장한다. 구체적으로, 저장부(130)는 상술한 입력부(110)에서 입력된 복수의 이미지 및 복수의 음원을 저장할 수 있다. 그리고 저장부(130)는 후술할 돌출맵 생성부(140)에서 생성된 돌출맵을 임시 저장할 수 있으며, 후술할 시선 경로 생성부(152)에서 생성된 시선 경로를 임시 저장할 수도 있다. 그리고 저장부(130)는 모니터링 장치(100) 내부에 장착된 메모리, 예를 들면 ROM, 플래시 메모리나 HDD일 수 있으며, 모니터링 장치(100)와 연결된 외장형 HDD 또는 메모리 카드, 예를 들면, 플래시 메모리(Flash Memory: M/S, xD, SD 등)나 USB 메모리 등일 수도 있다.
돌출맵 생성부(140)는 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성한다. 돌출맵 생성부(140)의 구체적인 동작 및 구성에 대해서는 도 3를 참고하여 후술한다.
음성/시선 경로 인식부(150)는 위치 판단부(151) 및 시선 경로 인식부(152)로 구성될 수 있다.
위치 판단부(151)는 복수의 음원(예를 들어, 스테레오 음원)을 분석하여 음원의 위치를 판단한다. 구체적으로, 위치 판단부(151)는 입력된 복수의 음원 사이의 위상 차를 분석하여 음원이 발생된 위치를 판단할 수 있다. 이러한 동작은 종래 널리 알려진 기술인바 이에 대해서 구체적인 설명은 생략한다.
한편, 위치 판단부(151)는 음성/시선 경로 인식부(150)의 일 구성으로 설명하고 있지만, 별개의 독립된 모니터링 장치(100)의 일 구성으로 구현될 수도 있다.
시선 경로 인식부(152)는 생성된 동적 돌출맵 및 판단된 음원 위치를 기초로 복수의 이미지에 대한 시선 경로를 생성한다. 구체적으로, 시선 경로 생성부(152)는 돌출맵 생성부(140)에서 생성된 동적 돌출맵에 포함된 복수의 돌출 포인트에 대해서 위치 판단부(151)에서 판단된 음원 위치에 기초하여 보강 처리 또는 억제 처리를 수행하여 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 부여된 우선 순위에 따라 시선 경로를 인식하여 생성할 수 있다.
한편, 음성/시선 경로 인식부(150)의 기능은 돌출맵 생성부(150)에 통합되는 형태로도 구현될 수 있다.
이와 같은 음성/시선 경로 인식부(150)의 동작은 생물학 기반의 선택적 주위 집중 모델을 이용할 수 있다. 여기서, 생물학 기반의 선택적 주위 집중 모델은 인간의 기각 구조 및 처리의 일부 과정을 모델링한 것으로, 입력된 영상에 대해서 즉각적으로 반응하는 자료 주도적 처리 과정과 학습된 정보를 이용하여 개념 주도적 처리 과정으로 나누어진다. 자료 주도적 처리 과정과 개념 주도적 처리 과정은 널리 알려진 기술인바 이에 대한 구체적인 설명은 생략한다.
제어부(160)는 모니터링 장치(100)의 각 구성을 제어한다. 구체적으로, 복수의 이미지 및 복수의 음원이 입력부(110)를 통하여 입력되면, 제어부(160)는 입력된 복수의 이미지에 대한 동적 돌출맵이 생성되도록 돌출맵 생성부(140)를 제어할 수 있으며, 복수의 음원에 대한 음원 위치가 판단되도록 위치 판단부(151)를 제어할 수 있다. 그리고 제어부(160)는 생성된 동적 돌출맵 및 음원 위치에 기초하여 사용자의 시선 경로가 생성되도록 시선 경로 생성부(151)를 제어할 수 있다. 그리고 제어부(160)는 생성된 시선 경로가 표시되도록 출력부(120)를 제어할 수 있다.
따라서, 본 실시 예에 따른 모니터링 장치(100)는 시/청각 정보를 융합하여, 영상의 동적인 움직임과 음원의 위치를 동시에 고려하기 때문에 정보 선택에 있어 높은 신뢰도를 가지고 시선 경로를 인식하여 생성할 수 있게 된다.
본 실시 예에서는 생성된 시선 경로를 출력부(120)를 통하여 표시하는 동작만을 설명하였으나, 구현시에는 생성된 시선 경로가 저장부(130)에 저장되거나, 인쇄 장치를 통하여 인쇄되거나, 특정 장치에 전송되는 형태로도 구현될 수 있다.
도 3은 본 발명의 제1 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 구체적인 구성을 도시한 블록도이다.
도 3를 참고하면, 돌출맵 생성부(140)는 이미지 정보 추출부(141), CSD 처리부(142), ICA 처리부(143) 및 병합부(144)를 포함한다.
도 3에서 Second Natural image는 First Natral image 이후 일정한 시간차(△t)를 두고 입력되는 이미지를 의미한다.
이미지 정보 추출부(141)는 입력된 이미지에 대한 밝기(I), 에지(E), 및 보색(RG, BY)에 대한 이미지 정보를 추출한다. 구체적으로, 입력된 이미지의 R(Red), G(Green), B(Ble) 값을 기초로 입력된 영상에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출할 수 있다.
CSD 처리부(142)는 추출된 이미지 정보에 대한 중앙-주변 창(Center-surround Difference: CSD) 및 정규화 처리를 수행하여 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵을 생성할 수 있다.
그리고 ICA 처리부(143)는 출력된 특징맵에 대한 독립 성분해석(Independent component analysis)을 수행하여 모노 돌출맵(SM: Salient Map)을 생성한다.
이와 같은 이미지 정보 추출부(141), CSD 처리부(142), ICA 처리부(143)를 이용하여 각각의 이미지에 대한 모노 돌출맵을 생성한다.
그리고 병합부(144)는 ICA 처리부(143)에서 시간차(△t)를 두고 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성한다. 구체적으로, 동적 돌출맵은 아래의 수학식 1 내지 2에 의하여 생성될 수 있다.
수학식 1
Figure PCTKR2012010480-appb-M000001
여기서 Sp(v)는 깊이 정보가 고려되지 않은 상향식 돌출맵이고, L(sp.v.σ)는 수학식 2과 같은 라플라스 식이다.
수학식 2
Figure PCTKR2012010480-appb-M000002
도 3에 도시된 바와 같은 동적 돌출맵이 인간의 선택적 주의 집중 기능과 유사한 돌출맵을 만들어 낼지라고, 돌출된 돌출 영역들은 인간에게 관심없는 영역이 될 수도 있고, 보다 관심을 가져야 할 영역일 수도 있다. 왜냐하면, 돌출맵은 보색성과 밝기, 에지, 대칭성 정보와 같은 원시적인 특징들만을 사용하여 생성하였기 때문이다. 이러한 점을 해결하기 위하여, 청각 정보에 반영하여 동적 돌출맵의 돌출 영역 각각에 대한 억제/강화를 수행할 수 있다. 이러한 동작은 Fuzzy ART 신경망으로 모델링할 수 있다.
도 4는 본 발명의 제1 실시 예에 따른 모니터링 장치의 위치 판단부의 동작을 설명하기 위한 도면이다.
도 4을 참조하면, 입력부에 두 개의 음원(예를 들어, 스테레오 음원)이 입력되면, 위치 판단부(151)는 각각의 음원의 스펙트럼을 분석하고, 분석된 음원 각각의 스펙트럼을 통하여, 음원이 발생된 위치를 예측할 수 있다.
도 5는 본 발명의 제1 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 동작을 설명하기 위한 도면이다.
도 5를 참조하면, ICA 처리부(143)에서 생성된 복수의 돌출맵(510), 병합부(144)에서 생성된 동적 돌출맵(520) 및 최종 돌출맵(530)이 표시되어 있다.
복수의 모노 돌출맵(510)은 입력부(110)를 통하여 시간차를 두고 입력된 복수의 이미지 각각에 대응되는 돌출입니다.
그리고 동적 돌출맵(520)은 ICA 처리부(144)에서 출력된 복수의 모노 돌출맵이 병합되어 생성된 돌출맵이다.
그리고 최종 돌출맵(430)은 위치 판단부(151)에서 판단된 음원의 위치에 따라 동적 돌출맵(520)의 돌출 영역에 대한 보강 및 억제 동작을 수행하여 생성된 돌출맵이다.
도 6은 본 발명의 제1 실시 예에 따른 모니터링 방법의 동작을 설명하기 위한 흐름도이다.
이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는다(S610). 구체적으로, 외부 디지털 카메라, 화상독취장치(스캐너)와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 복수의 채널을 갖는 마이크를 통하여 복수의 음원을 입력받을 수 있다.
그리고 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성한다(S620). 구체적으로, 입력된 복수의 이미지 각각에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하고, 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하고, 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성할 수 있다.
생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성한다(S630). 구체적으로, 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성할 수 있다.
그리고 복수의 음원을 분석하여 상기 음원의 위치를 판단한다(S640). 구체적으로, 입력된 복수의 음원 사이의 위상 차를 분석하여 음원이 발생된 위치를 판단할 수 있다. 한편, 음원의 위치를 판단 하는 단계는 모노 돌출맵을 생성하는 단계(S620)이전에 실행될 수 도 있다.
생성된 동적 돌출맵 및 판단된 음원 위치를 기초로 복수의 이미지에 대한 시선 경로를 생성한다(S650). 구체적으로, 생성된 동적 돌출맵에 포함된 복수의 돌출 포인트에 대해서 판단된 음원 위치에 기초하여 보강 처리 또는 억제 처리를 수행하여 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 부여된 우선 순위에 따라 시선 경로를 생성할 수 있다.
생성된 시선 경로를 출력한다(S660). 구체적으로 모니터와 같은 디스플레이 장치를 통하여 생성된 시선 경로를 출력할 수 있다. 이때, 입력받은 복수의 이미지와 해당 복수의 이미지에 대한 시선 경로를 함께 표시할 수 있다.
따라서, 본 실시 예에 따른 모니터링 방법은 시/청각 정보를 융합하여, 영상의 동적인 움직임과 음원의 위치를 동시에 고려하기 때문에 정보 선택에 있어 높은 신뢰도를 가지고 시선 경로를 생성할 수 있게 된다. 도 6와 같은 모니터링 방법은, 도 2의 구성을 가지는 모니터링 장치 상에서 실행될 수 있으며, 그 밖의 다른 구성을 가지는 모니터링 장치상에도 실행될 수 있다.
이하 도 7 내지 도 13을 참고하여, 제2 실시 예에 따른 모니터링 장치(100)에 대해 설명하도록 한다. 제2 실시 예에 따른 모니터링 장치(100)는 신뢰성이 높은 음성 인식을 제공하는 모니터링 장치(100)에 대한 실시 예로, 음성 인식 장치로 구현될 수도 있다.
도 7은 본 발명의 제2 실시 예에 따른 모니터링 장치(100)의 구성을 나타내는 블럭도이다.
도 7을 참조하면, 본 실시 예에 따른 모니터링 장치(100)는 입력부(110), 출력부(120), 저장부(130), 돌출맵 생성부(140), 음성/시선 경로 인식부(150) 및 제어부(160)로 구성될 수 있다. 본 실시 예에서는 단순히 음성 인식만을 파악하는 장치로 이용되는 것으로 설명하지만, 본 실시 예에 따른 모니터링 장치는 로봇 비젼 시스템, 보안 시스템 및 서벨리언스 시스템 등의 일 구성으로 구현될 수도 있다.
입력부(110)는 사용자를 촬상한 복수의 이미지 및 음원을 입력받는다. 구체적으로, 입력부(110)는 외부 디지털 카메라, 외부 캠코더와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 입력부(110)는 외부 마이크를 통하여 음원을 입력받을 수 있다.
한편, 이상에서는 외부 장치로부터 이미지 및 음원을 입력받는 것으로 도시하고 설명하였지만, 구현시에는 촬상 소자 및/또는 음성 독취 소자가 모니터링 장치(100)에 구비되는 형태로도 구현될 수 있다.
또한, 이상에서는 입력부(110)가 하나의 음원만을 입력받는 것으로 설명하였지만, 구현시에 입력부(110)는 서로 이격된 위치에서 청취된 복수의 음원을 입력받을 수 있으며, 이 경우, 입력된 복수의 음원은 후술한 위치 판단부(151)에 제공될 수 있다.
출력부(120)는 음성 인식의 결과를 출력할 수 있다. 구체적으로, 출력부(120)는 모니터와 같은 디스플레이 장치로 구현될 수 있으며, 이 경우, 출력부(120)는 후술할 음성 인식부(154)에서 음식 인식의 결과를 표시할 수 있다. 또한, 출력부(120)는 음성 인식의 결과를 외부 장치에 전송할 수도 있다.
저장부(130)는 입력된 복수의 이미지 및 입력된 음원을 저장한다. 구체적으로, 저장부(130)는 상술한 입력부(110)에서 입력된 복수의 이미지 및 음원을 저장할 수 있다. 그리고 저장부(130)는 후술할 검출부(145)에서 검출된 영역 정보 및 추출 이미지를 임시 저장할 수 있으며, 후술할 생성부(146)에서 생성된 돌출맵을 임시 저장할 수 있으며, 후술할 정보 취득부(153)에 취득된 정보 및 후술할 음성 인식부(154)에서 음성 인식의 결과를 임시 저장할 수도 있다.
그리고 저장부(130)는 모니터링 장치(100) 내부에 장착된 메모리, 예를 들면 ROM, 플래시 메모리나 HDD일 수 있으며, 모니터링 장치(100)와 연결된 외장형 HDD 또는 메모리 카드, 예를 들면, 플래시 메모리(Flash Memory: M/S, xD, SD 등)나 USB 메모리 등일 수도 있다.
돌출맵 생성부(140)는 검출부(145) 및 생성부(146)로 구성되어, 돌출맵을 생성할 수 있다.
검출부(145)는 복수의 이미지 각각에서 사용자의 입술 영역을 검출한다. 구체적으로, 검출부(145)는 얼굴 검출부(미도시) 및 입술 검출부(미도시)로 구성될 수 있다.
얼굴 검출부는 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출한다. 구체적으로, 얼굴 검출부는 Adaboost 알고리즘을 이용하여 복수의 이미지 각각에서의 사용자 얼굴 영역을 검출할 수 있다. 얼굴 검출부의 구체적인 동작에 대해서는 도 8을 참조하여 후술한다.
입술 검출부는 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출한다. 구체적으로, 입술 검출부는 기저장된 탬플릿을 이용하여 얼굴 검출부에서 검출된 얼굴 영역 중 입술 영역을 검출할 수 있다. 그리고 입술 검출부는 복수의 이미지 각각에서 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성할 수 있다. 입술 검출부의 구체적인 동작에 대해서는 도 9를 참조하여 후술한다.
생성부(146)는 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성한다. 구체적으로, 생성부(146)는 검출부(145)의 입술 검출부에서 생성된 복수의 추출 이미지를 이용하여 복수의 모노 돌출맵을 생성하고, 생성된 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다. 생성부(146)의 구체적인 동작에 대해서는 도 4를 참조하여 후술한다.
음성/시선 경로 인식부(150)는 위치 판단부(151), 정보 취득부(152) 및 음성 인식부(154)를 구비할 수 있다.
위치 판단부(151)는 복수의 음원(예를 들어, 스테레오 음원)을 분석하여 음원의 위치를 판단한다. 구체적으로, 위치 판단부(151)는 입력된 복수의 음원 사이의 위상 차를 분석하여 음원이 발생된 위치를 판단할 수 있다. 이상에서는 두 개의 채널만을 이용하는 것에 대해서 도시하고 설명하였지만, 구현시에는 4개의 채널을 갖는 음원을 이용하는 것도 가능하다. 이에 대해서는 도 11를 참조하여 후술한다.
한편, 위치 판단부(151)는 음성/시선 경로 인식부(150)의 일 구성으로 설명하였지만, 이에 한정되지 않고 별도의 독립된 구성으로 구현될 수도 있다.
정보 취득부(153)는 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득한다. 구체적으로, 정보 취득부(153)는 생성된 동적 돌출맵을 이용하여, 사용자가 말하는 시점, 청킹 시점, 말이 끝나는 시점을 파악하고, 이에 대응되는 움직임 정보를 취득할 수 있다. 이와 관련하여서는 도 12를 참조하여 후술한다.
한편, 정보 취득부(153)는 음성/시선 경로 인식부(150)의 일 구성으로 설명하였지만, 이에 한정되지 않고 별도의 독립된 구성으로 구현될 수도 있다.
음성 인식부(154)는 취득된 움직임 정보를 기초로 입력된 음원에 대한 음성 인식을 수행한다. 구체적으로, 음성 인식부(154)는 취득된 움직임 정보를 기초로 사용자가 실제 말을 하는 시점의 음원만을 이용하여 음원 인식을 수행할 수 있다. 또한, 음원 인식부(154)는 취득된 움직임 정보 및 위치 판단부(151)에서 판단된 음원 발생 위치를 기초로 음원에 대한 음성 인식을 수행할 수 있다. 음원을 이용하여 음성 인식을 수행하는 구체적인 기술은 종래 널리 알려진 방법을 이용할 수 있다.
제어부(160)는 모니터링 장치(100)의 각 구성을 제어한다. 구체적으로, 복수의 이미지 및 음원이 입력부(110)를 통하여 입력되면, 제어부(160)는 입력된 복수의 이미지 각각의 입술 영역이 검출되도록 검출부(145)를 제어하고, 검출된 입술 영역에 대한 동적 돌출맵이 생성되도록 돌출맵 생성부(140)를 제어할 수 있다. 그리고 제어부(160)는 복수의 음원이 입력된 경우, 입력된 음원의 위치가 판단되도록 위치 판단부(151)를 제어할 수 있다. 그리고 제어부(160)는 생성된 동적 돌출맵에 기초하여 움직임 정보가 취득되도록 정보 취득부(153)를 제어하고, 취득된 움직임 정보 및 음원의 발생 위치에 기초하여 입력된 음원에 대한 음성 인식이 수행되도록 음성 인식부(154)를 제어할 수 있다.
따라서, 본 실시 예에 따른 모니터링 장치(100)는 시각 정보를 이용하여 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원의 선별적으로 선택할 수 있다. 또한, 시각 정보와 음원의 위치를 동시에 고려하기 때문에 높은 신뢰도를 가지고 음원 인식을 수행할 수 있다.
도 8은 본 발명의 제2 실시 예에 따른 모니터링 장치의 얼굴 검출부의 구체적인 구성을 설명하기 위한 도면이다.
도 8을 참고하면, 얼굴 검출부(800)는 생물학 기반의 선택적 주의집중 모듈을 이용하여 사용자의 얼굴 영역을 검출한다. 구체적으로, 얼굴 검출부(800)는 이미지 정보 추출부(810), CSD 처리부(820) 및 ICA 처리부(830)로 구성될 수 있다.
이미지 정보 추출부(810)는 입력된 이미지에 대한 밝기(I), 에지(E), 및 보색(RG, BY)에 대한 이미지 정보를 추출한다. 구체적으로, 입력된 이미지의 R(Red), G(Green), B(Ble) 값을 기초로 입력된 영상에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출할 수 있다.
CSD 처리부(820)는 추출된 이미지 정보에 대한 중앙-주변 창(Center-surround Difference: CSD) 및 정규화 처리를 수행하여 밝기 특징맵(
Figure PCTKR2012010480-appb-I000001
), 에지 특징맵(
Figure PCTKR2012010480-appb-I000002
), 컬러 특징맵(
Figure PCTKR2012010480-appb-I000003
)을 생성할 수 있다.
그리고 ICA 처리부(830)는 출력된 특징맵에 대한 독립 성분해석(Independent component analysis)을 수행하여 모노 돌출맵(SM: Salient Map)을 생성한다.
그리고 ICA 처리부(830)는 생성된 모노 돌출맵에서 단위 면적당 에너지값이 높은 영역을 우선적으로 4개 영역을 선별하여 얼굴 후보 영역을 검출할 수 있다.
그리고 ICA 처리부(830)는 검출된 얼굴 후보 영역에 대하여 Adaboost 알고리즘을 이용하여 얼굴 영역을 검출할 수 있다. Adaboost 알고리즘은 '간단한', '약한' 분류기들의 선형 조합으로부터 '강한'분류기를 설계하기 위한 알고리즘으로, Adaboost 알고리즘을 이용하여 빠른 시간 내에 얼굴 영역을 검출할 수 있다.
도 9는 본 발명의 제2 실시 예에 따른 모니터링 장치의 입술 검출부의 구체적인 구성을 설명하기 위한 도면이다.
도 9를 참조하면, 입술 검출부는 얼굴 검출부에서 검출된 얼굴 영역(910)에 대해서 입술 영역이라고 추정될 수 있는 영역(구체적으로, 붉은 색을 갖는 영역)을 한정하고, 한정된 영역과 기저장된 탬플릿(920)을 비교하여 correlation 값이 가장 높은 영역을 입술 영역으로 검출할 수 있다.
그리고 입술 검출부는 검출된 입술 영역을 추출 및 확대하여, 이후의 작업에 사용될 추출 이미지를 생성할 수 있다.
도 10은 본 발명의 제2 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 동작을 설명하기 위한 도면이다.
도 10을 참조하면, 돌출맵 생성부(140)는 생물학 기반의 선택적 주의 집중 모델을 이용하여 동적 돌출맵을 생성할 수 있다.
구체적으로, 돌출맵 생성부(140)는 단위 시간에 입력된 복수의 이미지에 대한 추출 이미지(즉, 입술 영역의 이미지, 1010) 각각에 대해서 모노 돌출맵을 생성한다. 모노 돌출맵을 생성하는 과정은 도 8에서의 설명하였는바, 중복 설명은 생략한다.
그리고 돌출맵 생성부(140)는 생성된 복수의 모노 돌출맵을 이용하여 복수의 추출 이미지 각각의 돌출 포인트를 추출할 수 있다.
그리고 돌출맵 생성부(140)는 생성된 복수의 모노 돌출맵 및 복수의 모노 돌출맵 각각의 돌출 포인트를 이용하여 동적 돌출맵을 생성할 수 있다.
도 11은 본 발명의 제2 실시 예에 따른 모니터링 장치의 위치 판단부의 동작을 설명하기 위한 도면이다.
도 5를 참조하면, 입력부(110)에 복수의 음원(예를 들어, 스테레오 음원 또는 4채널 음원)이 입력되면, 위치 판단부(151)는 각각의 음원의 스펙트럼을 분석하고, 분석된 음원 각각의 스펙트럼을 통하여 음원이 발생한 방향 또는 위치를 탐지할 수 있다. 구체적으로, DUET 알고리즘을 이용하여 경계치 이상의 음원 세기의 발생 위치를 파악할 수 있다. 도 5에서는 4채널 마이크를 통하여 각도 방향으로 상/하 그리고 좌/우의 음원을 탐지한 결과가 도시하였다.
도 12는 본 발명의 제2 실시 예에 따른 모니터링 장치의 동작을 설명하기 위한 도면이다.
도 12를 참조하면, 먼저, 입력된 영상(1210)에 대해서 얼굴 영역을 검출하고(1220),얼굴 영역이 검출된 이미지(1230)에 대해서 입술 영역을 검출할 수 있다. 그리고 검출된 입술 영역에 대응되는 추출 이미지(1240)를 생성할 수 있다.
그리고 생성된 추출 이미지(1240)의 형상에 기초하여, 사용자가 말하는 시작 시점, 청킹 시점 및 끝나는 시점을 검출하고, 검출된 시점을 움직임 정보로 취득할 수 있다.
이때, 모니터링 장치(100)는 위치 판단부(151)에서 음원의 발생 위치(또는 음원의 크기)를 고려하여, 움직임 정보를 수정할 수 있다. 예를 들어, 사용자가 말을 하지 않고 입 모양만이 변화된 경우에는 음성 인식을 수행할 필요가 없으나, 이러한 사용자의 입 모양의 변화에 대해서는 움직임 정보로 취득하지 않을 수 있다.
따라서, 본 실시 예에 따른 모니터링 장치(100)는 화자의 입술이 움직이고,경계치 이상의 음원 에너지값이 발생하였을 때(즉, 동일한 위치에서 영상의 움직임과 음원이 발생하였을 때), 사용자가 말을 하고 있는 시점으로 판단할 수 있다.
도 13은 본 발명의 제2 실시 예에 따른 모니터링 방법의 동작을 설명하기 위한 흐름도이다.
도 13을 참조하면, 먼저, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는다(S1310). 구체적으로, 외부 디지털 카메라, 외부 캠코더와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 외부 마이크를 통하여 음원을 입력받을 수 있다. 한편, 이상에서는 외부 장치로부터 이미지 및 음원을 입력받는 것으로 도시하고 설명하였지만, 구현시에는 촬상 소자 및/또는 음성 독취 소자가 직접 복수의 이미지를 생성하거나, 음원을 생성할 수도 있다.
그리고 복수의 이미지 각각에서 사용자의 입술 영역을 검출한다(S1320). 구체적으로, 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하고, 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출할 수 있다. 이때, 검출된 입술 영역에 대한 추출 이미지가 생성될 수 있다.
그리고 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성한다(S1330). 구체적으로, 앞선 단계에서 생성된 복수의 추출 이미지를 이용하여 복수의 모노 돌출맵을 생성하고, 생성된 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다.
그리고 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득한다(S1340).구체적으로, 생성된 동적 돌출맵을 이용하여, 사용자가 말하는 시점, 청킹 시점, 말이 끝나는 시점을 파악하고, 이에 대응되는 움직임 정보를 취득할 수 있다.
그리고 취득된 움직임 정보를 기초로 입력된 음원에 대한 음성 인식을 수행한다(S1350). 구체적으로, 취득된 움직임 정보를 기초로 사용자가 실제 말을 하는 시점의 음원만을 이용하여 음원 인식을 수행할 수 있다.
그리고 음성 인식의 결과를 출력한다(S1360).
따라서, 본 실시 예에 따른 모니터링 방법은, 시각 정보를 이용하여 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원의 선별적으로 선택할 수 있다. 또한, 시각 정보와 음원의 위치를 동시에 고려하기 때문에 높은 신뢰도를 가지고 음원 인식을 수행할 수 있다. 도 13과 같은 모니터링 방법은, 도 7의 구성을 가지는 모니터링 장치 상에서 실행될 수 있으며, 그 밖의 다른 구성을 가지는 모니터링 장치상에도 실행될 수 있다.
이상에서는 본 발명의 바람직한 실시 예에 대해서 도시하고, 설명하였으나, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자라면 누구든지 다양한 변형 실시할 수 있는 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims (28)

  1. 모니터링 장치에 있어서,
    이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 입력부;
    상기 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 돌출맵 생성부;
    상기 복수의 음원을 분석하여 상기 음원의 위치를 판단하는 위치 판단부;
    상기 생성된 동적 돌출맵 및 상기 판단된 음원 위치를 기초로 상기 복수의 이미지에 대한 시선 경로를 생성하는 시선 경로 인식부; 및
    상기 생성된 시선 경로를 출력하는 출력부;를 포함하는 모니터링 장치.
  2. 제1항에 있어서,
    상기 돌출맵 생성부는,
    상기 입력된 이미지에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하는 이미지 정보 추출부;
    상기 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하는 CSD 처리부; 및
    상기 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성하는 ICA 처리부;를 포함하는 것을 특징으로 하는 모니터링 장치.
  3. 제2항에 있어서,
    상기 돌출맵 생성부는,
    상기 ICA 처리부에서 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성하는 병합부;를 더 포함하는 것을 특징으로 하는 모니터링 장치.
  4. 제1항에 있어서,
    상기 돌출맵 생성부는,
    생물학 기반의 선택적 주위 집중 모델을 이용하여 상기 복수의 모노 돌출맵을 생성하는 것을 특징으로 하는 모니터링 장치.
  5. 제1항에 있어서,
    상기 시선 경로 인식부는,
    상기 판단된 음원 위치에 기초하여 상기 생성된 동적 돌출맵에 포함된 복수 개의 돌출 포인트(salient point)를 보강 처리 또는 억제 처리하여 상기 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 상기 부여된 우선 순위에 따라 시선 경로를 생성하는 것을 특징으로 하는 모니터링 장치.
  6. 제1항에 있어서,
    상기 입력부는,
    기설정된 시간을 주기로 복수의 이미지 및 복수의 음원을 입력받는 것을 특징으로 하는 모니터링 장치.
  7. 모니터링 장치에서의 모니터링 방법에 있어서,
    이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 단계;
    상기 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하는 단계;
    상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 단계;
    상기 복수의 음원을 분석하여 상기 음원의 위치를 판단하는 단계;
    상기 생성된 동적 돌출맵 및 상기 판단된 음원 위치를 기초로 상기 복수의 이미지에 대한 시선 경로를 생성하는 단계; 및
    상기 생성된 시선 경로를 출력하는 단계;를 포함하는 모니터링 방법.
  8. 제7항에 있어서,
    상기 복수의 모노 돌출맵을 생성하는 단계는,
    상기 입력된 복수의 이미지 각각에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하는 단계;
    상기 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하는 단계; 및
    상기 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성하는 단계;를 포함하는 것을 특징으로 하는 모니터링 방법.
  9. 제8항에 있어서,
    상기 동적 돌출맵을 생성하는 단계는,
    상기 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성하는 것을 특징으로 하는 모니터링 방법.
  10. 제7항에 있어서,
    상기 복수의 모노 돌출맵을 생성하는 단계는,
    생물학 기반의 선택적 주위 집중 모델을 이용하여 상기 복수의 모노 돌출맵을 생성하는 것을 특징으로 하는 모니터링 방법.
  11. 제7항에 있어서,
    상기 시선 경로를 생성하는 단계는,
    상기 판단된 음원 위치에 기초하여 상기 생성된 동적 돌출맵에 포함된 복수 개의 돌출 포인트(salient point)를 보강 처리 또는 억제 처리하여 상기 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 상기 부여된 우선 순위에 따라 시선 경로를 생성하는 것을 특징으로 하는 모니터링 방법.
  12. 제7항에 있어서,
    상기 입력받는 단계는,
    기설정된 시간을 주기로 복수의 이미지 및 복수의 음원을 입력받는 것을 특징으로 하는 모니터링 방법.
  13. 모니터링 장치에 있어서,
    사용자를 촬상한 복수의 이미지 및 음원을 입력받는 입력부;
    상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 검출부;
    상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 돌출맵 생성부;
    상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 정보 취득부;
    상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 음성 인식부; 및
    상기 음성 인식의 결과를 출력하는 출력부;를 포함하는 모니터링 장치.
  14. 제13항에 있어서,
    상기 검출부는,
    상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 얼굴 검출부; 및
    상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 입술 검출부;를 포함하는 것을 특징으로 하는 모니터링 장치.
  15. 제14항에 있어서,
    상기 얼굴 검출부는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고,
    상기 입술 검출부는, 기저장된 탬플릿을 이용하여 입술 영역을 검출하는 것을 특징으로 하는 모니터링 장치.
  16. 제14항에 있어서,
    상기 입술 검출부는,
    상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성하는 것을 특징으로 하는 모니터링 장치.
  17. 제16항에 있어서,
    상기 돌출맵 생성부는,
    상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 것을 특징으로 하는 모니터링 장치.
  18. 제13항에 있어서,
    상기 움직임 정보는,
    사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함하는 것을 특징으로 하는 모니터링 장치.
  19. 제13항에 있어서,
    상기 음성 인식부는,
    상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행하는 것을 특징으로 하는 모니터링 장치.
  20. 제13항에 있어서,
    상기 입력부는,
    상호 이격된 위치에서 청취된 복수의 음원을 입력받고,
    상기 모니터링 장치는,
    상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 위치 판단부;를 더 포함하고,
    상기 음성 인식부는,
    상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 것을 특징으로 하는 모니터링 장치.
  21. 모니터링 방법에 있어서,
    사용자를 촬상한 복수의 이미지 및 음원을 입력받는 단계;
    상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 단계;
    상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 단계;
    상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 단계;
    상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 단계; 및
    상기 음성 인식의 결과를 출력하는 단계;를 포함하는 모니터링 방법.
  22. 제21항에 있어서,
    상기 검출하는 단계는,
    상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 단계; 및
    상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 단계;를 포함하는 것을 특징으로 하는 모니터링 방법.
  23. 제22항에 있어서,
    상기 얼굴 영역을 검출하는 단계는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고,
    상기 입술 영역을 검출하는 단계는, 기저장된 탬플릿을 이용하여 입술 영역을 검출하는 것을 특징으로 하는 모니터링 방법.
  24. 제22항에 있어서,
    상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 모니터링 방법.
  25. 제24항에 있어서,
    상기 동적 돌출맵을 생성하는 단계는,
    상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 것을 특징으로 하는 모니터링 방법.
  26. 제21항에 있어서,
    상기 움직임 정보는,
    사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함하는 것을 특징으로 하는 모니터링 방법.
  27. 제21항에 있어서,
    상기 음성 인식을 수행하는 단계는,
    상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행하는 것을 특징으로 하는 모니터링 방법.
  28. 제21항에 있어서,
    상기 입력받는 단계는,
    상호 이격된 위치에서 청취된 복수의 음원을 입력받고,
    상기 음원 인식 방법은,
    상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 단계;를 더 포함하고,
    상기 음성 인식을 수행하는 단계는,
    상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 것을 특징으로 하는 모니터링 방법.
PCT/KR2012/010480 2011-12-06 2012-12-05 선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법 WO2013085278A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/363,170 US9355641B2 (en) 2011-12-06 2012-12-05 Monitoring device using selective attention model and method for monitoring same

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2011-0129935 2011-12-06
KR1020110129935A KR101314687B1 (ko) 2011-12-06 2011-12-06 시선 경로 제공장치 및 시선 경로 제공방법
KR10-2012-0030718 2012-03-26
KR1020120030718A KR101353936B1 (ko) 2012-03-26 2012-03-26 음성 인식 장치 및 음성 인식 방법

Publications (1)

Publication Number Publication Date
WO2013085278A1 true WO2013085278A1 (ko) 2013-06-13

Family

ID=48574566

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/010480 WO2013085278A1 (ko) 2011-12-06 2012-12-05 선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법

Country Status (2)

Country Link
US (1) US9355641B2 (ko)
WO (1) WO2013085278A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9485474B2 (en) 2013-12-27 2016-11-01 Electronics And Telecommunications Research Institute System and method for learning driving information in vehicle
CN109754811A (zh) * 2018-12-10 2019-05-14 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6338429B2 (ja) * 2014-04-15 2018-06-06 キヤノン株式会社 被写体検出装置、被写体検出方法及びプログラム
DE102015206566A1 (de) * 2015-04-13 2016-10-13 BSH Hausgeräte GmbH Haushaltsgerät und Verfahren zum Betreiben eines Haushaltsgeräts
JP2017069687A (ja) * 2015-09-29 2017-04-06 ソニー株式会社 情報処理装置及び情報処理方法並びにプログラム
US9853758B1 (en) * 2016-06-24 2017-12-26 Harman International Industries, Incorporated Systems and methods for signal mixing
CN114664295A (zh) * 2020-12-07 2022-06-24 北京小米移动软件有限公司 用于机器人的语音识别方法、装置及机器人

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003062777A (ja) * 2001-08-22 2003-03-05 Honda Motor Co Ltd 自律行動ロボット
KR20090116089A (ko) * 2008-05-06 2009-11-11 삼성전자주식회사 로봇의 음원 위치 탐색 방법 및 그 장치
KR20110109691A (ko) * 2010-03-31 2011-10-06 경북대학교 산학협력단 시선 경로 제공장치
KR20110129158A (ko) * 2010-05-25 2011-12-01 경북대학교 산학협력단 영상 처리 시스템에서의 객체 후보 영역 검출 방법 및 시스템

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2014425B1 (en) * 2007-07-13 2013-02-20 Honda Research Institute Europe GmbH Method and device for controlling a robot
US8396282B1 (en) * 2008-10-31 2013-03-12 Hrl Labortories, Llc Method and system for computing fused saliency maps from multi-modal sensory inputs
US8396249B1 (en) * 2008-12-23 2013-03-12 Hrl Laboratories, Llc Robot control based on saliency and invariant spatial representations using hierarchical spatial working memory
US8406925B2 (en) * 2009-07-01 2013-03-26 Honda Motor Co., Ltd. Panoramic attention for humanoid robots
JP2011028689A (ja) * 2009-07-29 2011-02-10 Sony Corp 動画抽出装置、プログラム、および動画抽出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003062777A (ja) * 2001-08-22 2003-03-05 Honda Motor Co Ltd 自律行動ロボット
KR20090116089A (ko) * 2008-05-06 2009-11-11 삼성전자주식회사 로봇의 음원 위치 탐색 방법 및 그 장치
KR20110109691A (ko) * 2010-03-31 2011-10-06 경북대학교 산학협력단 시선 경로 제공장치
KR20110129158A (ko) * 2010-05-25 2011-12-01 경북대학교 산학협력단 영상 처리 시스템에서의 객체 후보 영역 검출 방법 및 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9485474B2 (en) 2013-12-27 2016-11-01 Electronics And Telecommunications Research Institute System and method for learning driving information in vehicle
CN109754811A (zh) * 2018-12-10 2019-05-14 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质
CN109754811B (zh) * 2018-12-10 2023-06-02 平安科技(深圳)有限公司 基于生物特征的声源追踪方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US9355641B2 (en) 2016-05-31
US20140334682A1 (en) 2014-11-13

Similar Documents

Publication Publication Date Title
WO2013085278A1 (ko) 선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법
WO2019103484A1 (ko) 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체
WO2013085193A1 (ko) 사용자 인지 향상 장치 및 그 인지 향상 방법
WO2020085694A1 (ko) 이미지 획득 장치 및 그의 제어 방법
WO2018004298A1 (ko) 영상 축약 시스템 및 방법
WO2015190798A1 (en) Method and apparatus for generating image data by using region of interest set by position information
WO2019156480A1 (ko) 시선에 기반한 관심 영역 검출 방법 및 이를 위한 전자 장치
WO2019108028A1 (ko) 포터블 피부 상태 측정 장치, 및 피부 상태 진단 및 관리 시스템
WO2015199288A1 (en) Glass-type terminal and method of controling the same
WO2018008881A1 (ko) 단말장치 및 서비스서버, 그 장치에 의해 수행되는 진단분석 서비스를 제공하기 위한 방법 및 프로그램과, 그 프로그램이 기록된 컴퓨터 판독 가능 기록매체
WO2020262977A1 (ko) 인공지능을 이용하여 이미지의 객체를 제거하는 방법
WO2019125029A1 (ko) 증강 현실을 위한 객체를 표시하기 위한 전자 장치 및 그의 동작 방법
WO2018117538A1 (ko) 차선 정보를 추정하는 방법 및 전자 장치
WO2013165048A1 (ko) 영상 검색 시스템 및 영상 분석 서버
WO2020207038A1 (zh) 基于人脸识别的人数统计方法、装置、设备及存储介质
WO2022255529A1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
WO2015137666A1 (ko) 오브젝트 인식 장치 및 그 제어 방법
WO2018223520A1 (zh) 面向儿童的学习方法、学习设备及存储介质
WO2020032383A1 (ko) 이미지에 대한 인식 정보, 인식 정보와 관련된 유사 인식 정보, 및 계층 정보를 이용하여 외부 객체에 대한 인식 결과를 제공하는 전자 장치 및 그의 동작 방법
WO2021172832A1 (ko) 제스처 인식 기반의 영상 편집 방법 및 이를 지원하는 전자 장치
WO2021002722A1 (ko) 이벤트 태깅 기반 상황인지 방법 및 그 시스템
WO2016148322A1 (ko) 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치
WO2020080734A1 (ko) 얼굴 인식 방법 및 얼굴 인식 장치
WO2019088338A1 (ko) 전자 장치 및 그 제어 방법
WO2022050622A1 (ko) 디스플레이장치 및 그 제어방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12855088

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14363170

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12855088

Country of ref document: EP

Kind code of ref document: A1