KR20050019599A - lip region segmentation and feature extraction method for Speech Recognition - Google Patents
lip region segmentation and feature extraction method for Speech Recognition Download PDFInfo
- Publication number
- KR20050019599A KR20050019599A KR1020030057475A KR20030057475A KR20050019599A KR 20050019599 A KR20050019599 A KR 20050019599A KR 1020030057475 A KR1020030057475 A KR 1020030057475A KR 20030057475 A KR20030057475 A KR 20030057475A KR 20050019599 A KR20050019599 A KR 20050019599A
- Authority
- KR
- South Korea
- Prior art keywords
- lip
- color
- image
- face
- similarity
- Prior art date
Links
- 238000000605 extraction Methods 0.000 title claims description 24
- 230000011218 segmentation Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000000513 principal component analysis Methods 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000005484 gravity Effects 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 3
- 238000012706 support-vector machine Methods 0.000 abstract description 10
- 238000001514 detection method Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
Description
본 발명은 입술모양정보를 획득하는 방법에 관한 것으로서, 보다 상세하게는 음성인식을 위해 입술영역을 검출하고 특징을 추출하여 입술모양정보를 획득하여 해당 입술모양정보로부터 음성인식에 유용한 정보를 제공하는 방법에 관한 것이다.The present invention relates to a method for acquiring lip shape information, and more particularly, to detect lip regions for voice recognition, extract features to obtain lip shape information, and provide useful information for voice recognition from the corresponding lip shape information. It is about a method.
일반적으로 음성인식기는 소리로 된 음성만을 인식 대상으로 하지만, 최근 들어 잡음하 인식 성능의 향상을 위해 소리와 영상을 동시에 처리하여 음성 인식을 수행하는 기술이 제안되고 있다. 이와 같이 입 영상으로부터 음성을 인식하기 위해서는 입술모양정보를 획득하는 기술이 필수적이다.In general, a voice recognizer targets only a voice in a voice, but recently, a technique for performing voice recognition by processing a sound and an image at the same time has been proposed in order to improve performance under noise. As described above, in order to recognize the voice from the mouth image, a technique for obtaining lip shape information is essential.
입술모양정보를 획득하기 위해서는 입 영상으로부터 입술의 위치를 검출한 후, 검출된 입술에 대해 입술모양정보를 획득한다.In order to acquire the lip shape information, the position of the lips is detected from the mouth image, and then the lip shape information is obtained for the detected lips.
영상으로부터 입술위치를 검출하는 종래의 방법은, 입술색상분포를 추정하여 이를 바탕으로 영상에서 입술에 해당하는 점들을 구분하며, 이 점들이 모여있는 것을 찾아내어 입술을 찾는 방법이다. 그러나, 영상의 특성상 조명에 의한 입술색의 편차 또는 사람간의 차이로 인한 입술색의 편차가 크며, 경우에 따라서는 입술색이 피부색과 크게 다르지 않기 때문에 입술에 해당하는 픽셀을 정확히 구분하기가 쉽지 않다.The conventional method of detecting the lip position from the image is to estimate the lip color distribution, and to classify the points corresponding to the lip in the image based on the lip color distribution, and to find the lip by finding the gathered points. However, due to the characteristics of the image, the lip color variation due to lighting or human differences is large, and in some cases, the lip color is not very different from the skin color. .
이러한 문제점을 해결하기 위한 입술위치를 검출하는 종래의 다른 방법으로서, 기하학적 입술모양 모델을 만들어서 주어진 영상과의 정합도를 계산하여 미리 만든 입술모양모델과 가장 근사한 영상의 영역을 찾는 방법이 있다. 그러나, 이 방법의 경우 최적의 입술모양모델을 찾기가 쉽지 않으며, 모델의 변형을 위한 파라미터 조절에 많은 노력이 들기 때문에 정확한 입술위치 검출 성능을 보장할 수가 없다.Another conventional method for detecting a lip position to solve this problem is to create a geometric lip shape model and calculate the degree of registration with a given image to find an area of the image most similar to the pre-made lip shape model. However, in this method, it is not easy to find an optimal lip shape model, and it is difficult to guarantee accurate lip position detection performance because a lot of effort is required to adjust parameters for model deformation.
입술모양 정보를 획득하는 종래의 방법으로는 영상기반 접근방법과 모양정보기반 접근방법이 있다. 첫 번째 영상기반 접근방법은 주어진 영상을 그대로 입술모양 특징 추출에 사용하거나 이를 좌표계 변환하고 영상의 주요 정보만을 압축하여 이를 입술모양정보로 사용하는 방법이다. 이 방법은 모양정보기반 접근방법에 비해 제공해주는 정보량이 풍부하나, 영상 자체를 사용하기 때문에 입술위치 검출에 오차가 있을 경우에는 정확한 입술모양정보를 얻을 수 없는 단점이 있다. 두 번째 모양정보기반 접근방법은 입술의 기하학적 모양을 분석하여 이를 입술특징으로 사용하는 방법이며, 입술 검출시 얻은 입술모양 파라메터들이 입술특징이 된다. 그러나, 이 방법은 정보량이 적어서 인식에 사용하기 곤란한 단점이 있다.Conventional methods of obtaining lip shape information include an image-based approach and a shape information-based approach. The first image-based approach is to use a given image as it is for extracting the lip shape as it is, or to transform the coordinate system and compress only the main information of the image and use it as lip shape information. This method provides more information than the shape information-based approach. However, since the image itself is used, accurate lip shape information cannot be obtained when there is an error in lip position detection. The second shape information-based approach is to analyze the geometric shape of the lips and use it as a lip feature, and the lip shape parameters obtained during lip detection become lip features. However, this method has a disadvantage that it is difficult to use for recognition due to the small amount of information.
상기한 종래기술의 문제점을 해결하기 위하여 안출된 본 발명의 목적은, 얼굴색 및 입술색 분포모델학습 결과와 보조벡터기(Support Vector Machine)를 사용한 패턴분류기를 이용하여 얼굴영역 및 입술위치를 검출하는 방법을 제공하기 위한 것이다.An object of the present invention devised to solve the above problems of the prior art is to detect a face region and a lip position using a face classifier and a lip color distribution model learning result and a pattern classifier using a support vector machine. It is to provide a method.
또한, 본 발명의 다른 목적은, 구성요소해석법(Principle Component Analysis)을 이용하여 입술모양정보를 획득하는 방법을 제공하기 위한 것이다. Another object of the present invention is to provide a method of obtaining lip shape information using a Principle Component Analysis.
상기한 목적을 달성하기 위한 본 발명에 따른 입술위치 학습방법은, 예제 얼굴영상이 입력되고 상기 예제 얼굴영상의 입술영역이 지정되면, 상기 예제 얼굴영상의 하반부영역의 색상분포 히스토그램을 계산하고 상기 지정된 입술영역의 색상분포 히스토그램을 계산하는 히스토그램계산단계와;Lip position learning method according to the present invention for achieving the above object, if the example face image is input and the lip region of the example face image is specified, the color distribution histogram of the lower half region of the example face image is calculated and the specified A histogram calculation step of calculating a color distribution histogram of the lip region;
상기 얼굴 하반부영역의 색상분포 히스토그램과 상기 입술영역의 색상분포 히스토그램을 이용하여, 각 색상별 입술색상확률을 구하는 입술색상확률계산단계와;A lip color probability calculation step of obtaining a lip color probability of each color by using the color distribution histogram of the lower half of the face and the color distribution histogram of the lip region;
상기 색상과 색상별 입술색상확률을 입술색유사도테이블로 구축하는 입술색유사도테이블생성단계와;A lip color similarity table generating step of constructing the color and the lip color probability of each color into a lip color similarity table;
상기 다양한 입술모양의 예제와 반례를 이용하여 입술모양에 대한 패턴분류기를 학습시키는 패턴분류기학습단계를 포함한 것을 특징으로 한다.It characterized by including a pattern classifier learning step of learning a pattern classifier for the lip shape by using the examples and counterexamples of the various lip shapes.
또한, 본 발명에 따르면 상술한 바와 같은 입술위치 학습방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.According to the present invention, there is provided a computer-readable recording medium having recorded thereon a program for executing the lip position learning method as described above.
또한, 본 발명의 한 실시예에 따른 입술모양정보 획득방법은, 색상과 색상별 입술색상확률값을 저장한 입술색유사도테이블과, 입술모양의 패턴을 학습한 패턴분류기가 구축된 상태에서,In addition, the lip shape information acquisition method according to an embodiment of the present invention, the lip color similarity table storing the color and color lip color probability value for each color, and in the state that the pattern classifier learning the pattern of the lip shape is built,
얼굴영상이 입력되면, 상기 입력 얼굴영상을 상기 입술색유사도테이블에 적용하여 입술색 유사도 영상을 얻는 입술색유사도영상획득단계와;A lip color similarity image acquisition step of obtaining a lip color similarity image by applying the input face image to the lip color similarity table when a face image is input;
상기 입술색 유사도 영상에서 무게중심을 계산하여 입술 초기 위치를 추정하는 입술초기위치추정단계와;An initial lip position estimation step of estimating the initial position of the lip by calculating the center of gravity in the lip color similarity image;
상기 입술 초기 위치를 중심으로 일정 범위에 대해 상기 패턴분류기에서의 정합도를 계산하고, 정합도가 가장 높은 위치를 입술위치로 설정하는 입술위치설정단계와;A lip position setting step of calculating a degree of registration in the pattern classifier for a predetermined range around the initial position of the lip, and setting the position of highest lip as the lip position;
상기 입술위치설정단계에서 설정된 입술위치의 영상에 대해서PCA((Principal Component Analysis) 계수를 추출하여 입술특징을 추출하는 입술특징추출단계를 포함한 것을 특징으로 한다.And a lip feature extraction step of extracting lip features by extracting Principal Component Analysis (PCA) coefficients for the image of the lip position set in the lip position setting step.
또한, 본 발명의 다른 실시예에 따른 입술모양정보 획득방법은, 색상과 색상별 얼굴색상확률값을 저장한 얼굴색유사도테이블과, 색상과 색상별 입술색상확률값을 저장한 입술색유사도테이블과, 입술모양의 패턴을 학습한 패턴분류기가 구축된 상태에서,In addition, the method of obtaining lip shape information according to another embodiment of the present invention includes a face color similarity table storing color and color face color probability values, a lip color similarity table storing color and color lip color probability values, and a lip shape. With the pattern classifier that has learned the pattern of,
영상이 입력되면, 상기 입력 영상을 상기 얼굴색유사도테이블에 적용하여 얼굴색 유사도 영상을 얻는 얼굴색유사도영상획득단계와;A face color similarity image acquisition step of obtaining a face color similarity image by applying the input image to the face color similarity table when an image is input;
상기 얼굴색 유사도 영상을 이진화하고 타원 모양으로 필터링하여 얼굴영역을 분할하는 얼굴영역분할단계와;Dividing the face region by binarizing the face color similarity image and filtering the ellipse into an ellipse shape;
상기 입력 영상의 상기 얼굴영역 영상을 상기 입술색유사도테이블에 적용하여 입술색 유사도 영상을 얻는 입술색유사도영상획득단계와;Obtaining a lip color similarity image by applying the face region image of the input image to the lip color similarity table to obtain a lip color similarity image;
상기 입술색 유사도 영상에서 무게중심을 계산하여 입술 초기 위치를 추정하는 입술초기위치추정단계와;An initial lip position estimation step of estimating the initial position of the lip by calculating the center of gravity in the lip color similarity image;
상기 입술 초기 위치를 중심으로 일정 범위에 대해 상기 패턴분류기에서의 정합도를 계산하고, 정합도가 가장 높은 위치를 입술위치로 설정하는 입술위치설정단계와;A lip position setting step of calculating a degree of registration in the pattern classifier for a predetermined range around the initial position of the lip, and setting the position of highest lip as the lip position;
상기 입술위치설정단계에서 설정된 입술위치의 영상에 대해서PCA((Principal Component Analysis) 계수를 추출하여 입술특징을 추출하는 입술특징추출단계를 포함한 것을 특징으로 한다.And a lip feature extraction step of extracting lip features by extracting Principal Component Analysis (PCA) coefficients for the image of the lip position set in the lip position setting step.
또한, 본 발명의 또 다른 실시예에 따른 입술모양정보 획득방법은, 예제 영상에 대해 특정색의 얼굴색상확률값을 학습하여 색상과 색상별 얼굴색상확률값을 얼굴색유사도테이블로 구축하는 얼굴색분포모델학습단계와;In addition, according to another embodiment of the present invention, a method of acquiring lip shape information includes: learning a face color probability value of a specific color with respect to an example image and constructing a face color probability value for each color and color into a face color similarity table; Wow;
예제 얼굴영상에 대해 특정색의 입술색상확률값을 학습하여 색상과 색상별 입술색상확률값을 입술색유사도테이블로 구축하는 입술색분포모델학습단계와;A lip color distribution model learning step of learning a lip color probability value of a specific color for an example face image and constructing a lip color probability value for each color and color into a lip color similarity table;
예제 입술모양 영상에 대해 입술모양의 패턴을 학습하는 패턴분류기학습단계와;A pattern classifier learning step of learning a lip pattern for an example lip image;
영상이 입력되면, 상기 입력 영상을 상기 얼굴색유사도테이블에 적용하여 얼굴색 유사도 영상을 얻는 얼굴색유사도영상획득단계와;A face color similarity image acquisition step of obtaining a face color similarity image by applying the input image to the face color similarity table when an image is input;
상기 얼굴색 유사도 영상을 이진화하고 타원 모양으로 필터링하여 얼굴영역을 분할하는 얼굴영역분할단계와;Dividing the face region by binarizing the face color similarity image and filtering the ellipse into an ellipse shape;
상기 입력 영상의 상기 얼굴영역 영상을 상기 입술색유사도테이블에 적용하여 입술색 유사도 영상을 얻는 입술색유사도영상획득단계와;Obtaining a lip color similarity image by applying the face region image of the input image to the lip color similarity table to obtain a lip color similarity image;
상기 입술색 유사도 영상에서 무게중심을 계산하여 입술 초기 위치를 추정하는 입술초기위치추정단계와;An initial lip position estimation step of estimating the initial position of the lip by calculating the center of gravity in the lip color similarity image;
상기 입술 초기 위치를 중심으로 일정 범위에 대해 상기 패턴분류기에서의 정합도를 계산하고, 정합도가 가장 높은 위치를 입술위치로 설정하는 입술위치설정단계와;A lip position setting step of calculating a degree of registration in the pattern classifier for a predetermined range around the initial position of the lip, and setting the position of highest lip as the lip position;
상기 입술위치설정단계에서 설정된 입술위치의 영상에 대해서PCA((Principal Component Analysis) 계수를 추출하여 입술특징을 추출하는 입술특징추출단계를 포함한 것을 특징으로 한다.And a lip feature extraction step of extracting lip features by extracting Principal Component Analysis (PCA) coefficients for the image of the lip position set in the lip position setting step.
또한, 본 발명에 따르면 상술한 바와 같은 입술모양정보 획득방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공된다.According to the present invention, there is provided a computer-readable recording medium having recorded thereon a program for executing the method of obtaining the lip shape information as described above.
이하, 첨부된 도면을 참조하면서 본 발명의 한 실시예에 따른 입술위치 학습방법 및 입술모양정보 획득방법을 보다 상세하게 설명하면 다음과 같다.Hereinafter, with reference to the accompanying drawings will be described in more detail the lip position learning method and lip shape information acquisition method according to an embodiment of the present invention.
도 1은 본 발명이 적용되는 입술모양정보 획득 시스템을 도시한 구성 블록도이다. 도 1을 참조하면, 본 발명을 위한 입술모양정보 획득 시스템은 영상획득장치(110)와, 디스플레이장치(120)와, 신호처리장치(130)를 구비한다.1 is a block diagram illustrating a lip shape information acquisition system to which the present invention is applied. Referring to FIG. 1, the lip shape information acquisition system for the present invention includes an image acquisition device 110, a display device 120, and a signal processing device 130.
영상획득장치(110)는 피사체를 촬영하여 영상신호를 생성하여 신호처리장치(130)에게 제공하는 장치로서, CCD(Charge Coupled Device) 카메라, 디지털 카메라, 또는 동영상 처리장치 등이 이에 해당된다.The image acquisition device 110 generates an image signal by photographing a subject and provides the image signal to the signal processing device 130. The image acquisition device 110 corresponds to a charge coupled device (CCD) camera, a digital camera, or a video processing device.
신호처리장치(130)는 영상획득장치(110)로부터 제공되는 영상신호를 신호처리하여 입술모양정보를 획득하는 장치로서, 영상프레임획득부(131)와, 얼굴색분포모델학습부(132)와, 입술색분포모델학습부(133)와, 저장부(134)와, 얼굴색유사도영상획득부(135)와, 얼굴영역검출부(136)와, 입술색유사도영상획득부(137)와, 입술위치추적부(138)와, 입술특징추출부(139)와, 제어부(140)를 구비한다.The signal processing device 130 is a device for obtaining lip shape information by signal processing an image signal provided from the image acquisition device 110, the image frame acquisition unit 131, the face color distribution model learning unit 132, Lip color distribution model learning unit 133, storage unit 134, face color similarity image acquisition unit 135, face area detection unit 136, lip color similarity image acquisition unit 137, and lip position tracking The unit 138, the lip feature extracting unit 139, and a control unit 140 are provided.
영상프레임획득부(131)는 영상획득장치(110)로부터 입력되는 동영상신호를 한 프레임씩 분리한다. 영상프레임획득부(131)는 학습모드시 입력되는 영상 신호를 얼굴색분포모델학습부(132) 또는 입술색분포모델학습부(133)에게 제공하고, 실행모드시 입력되는 영상 신호를 얼굴색유사도영상획득부(135)에게 제공한다.The image frame acquisition unit 131 separates the video signal input from the image acquisition device 110 by one frame. The image frame acquisition unit 131 provides an image signal input in the learning mode to the face color distribution model learning unit 132 or the lip color distribution model learning unit 133, and acquires the image color input image input in the execution mode. Provided to section 135.
얼굴색분포모델학습부(132)는 입력 영상 신호의 프레임별 각 픽셀들의 RGB색상을 파악하고, 각 픽셀들의 RGB색상을 HSV(Hue-Saturation-Value) 색상공간의 HS(Hue/Saturation) 색상값으로 변환시키고 이 HS 색상값을 바탕으로 각 색상에 대한 얼굴색 유사도를 산출하여, 산출한 색상에 대한 얼굴색상확률(얼굴색유사도)을 얼굴색유사도테이블로 구현하여 저장부(134)에 저장한다. 이와 같이 RGB 색상을 HSV 색상공간의 HS 색상으로 변환시키는 것은 이 HSV 색상공간이 다른 색상공간에 비해 얼굴색과 입술색을 비교적 잘 분류해주기 때문이다.The face color distribution model learner 132 grasps the RGB color of each pixel of each frame of the input image signal, and converts the RGB color of each pixel into a HS / Haturation (Hue / Saturation) color value of the HSV (Hue-Saturation-Value) color space. The color similarity for each color is calculated based on the converted HS color values, and the face color probability (face color similarity) for the calculated color is implemented as a face color similarity table and stored in the storage unit 134. This conversion of RGB color to HS color of HSV color space is because this HSV color space classifies face color and lip color relatively better than other color spaces.
입술색분포모델학습부(133)는 입력 얼굴 영상의 각 색상에 대한 입술색 유사도를 산출하여, 산출한 색상에 대한 입술색상확률(입술색유사도)을 입술색유사도테이블로 구현하여 저장부(134)에 저장한다.The lip color distribution model learning unit 133 calculates the lip color similarity for each color of the input face image, and implements the lip color probability (lip color similarity) for the calculated color as a lip color similarity table. ).
저장부(134)는 얼굴색유사도테이블과 입술색유사도테이블을 저장한다.The storage unit 134 stores a face color similarity table and a lip color similarity table.
얼굴색유사도영상획득부(135)는 영상프레임획득부(131)로부터 입력되는 영상 프레임과 저장부(134)에 저장된 얼굴색유사도테이블을 참조하여 현재 프레임의 모든 픽셀에 대해 얼굴색 유사도를 계산한다.The face color similarity image acquisition unit 135 calculates face color similarity for all pixels of the current frame with reference to the image frame input from the image frame acquisition unit 131 and the face color similarity table stored in the storage unit 134.
얼굴영역검출부(136)는 얼굴색유사도영상획득부(135)에 의해 얻어진 각 픽셀의 얼굴색 유사도를 기반으로 그레이 영상을 구성하고, 그레이 영상을 이진화 및 타원근사를 통해 얼굴의 위치와 크기를 한정하여 얼굴영역을 추출한다.The face area detection unit 136 composes a gray image based on the face color similarity of each pixel obtained by the face color similarity image acquisition unit 135, and limits the position and size of the face through binarization and elliptic approximation. Extract the area.
입술색유사도영상획득부(137)는 얼굴영역검출부(136)로부터 입력되는 얼굴영역 영상과 저장부(134)에 저장된 입술색유사도테이블을 참조하여 현재 얼굴영역의 모든 픽셀에 대해 입술색 유사도를 계산한다.The lip color similarity image acquisition unit 137 calculates the lip color similarity for all pixels of the current face area by referring to the face area image input from the face area detection unit 136 and the lip color similarity table stored in the storage unit 134. do.
입술위치추적부(138)는 입술색유사도영상획득부(137)에 의해 얻어진 각 픽셀의 입술색유사도영상에 대해서 무게중심을 계산하고 입술위치를 추적한다.The lip position tracking unit 138 calculates the center of gravity of the lip color similarity image of each pixel obtained by the lip color similarity image acquisition unit 137 and tracks the lip position.
입술특징추출부(139)는 입술위치추적부(138)에 의해 추적된 입술위치에 대해 구성요소해석법(Principle Component Analysis)을 이용하여 입술특징을 추출한다.The lip feature extracting unit 139 extracts the lip feature using a component analysis method for the lip position tracked by the lip position tracking unit 138.
제어부(140)는 장치의 전반적인 동작을 제어하며, 디스플레이장치(120)는 신호처리장치(130)의 각 구성요소에 의해 처리된 결과를 화면에 표시한다.The controller 140 controls the overall operation of the apparatus, and the display apparatus 120 displays the results processed by each component of the signal processing apparatus 130 on the screen.
이하, 도 2를 참조하여 본 발명의 한 실시예에 따른 입술모양정보 획득방법을 설명한다. 본 발명은 학습모드시 샘플 영상을 이용하여 색분포 학습을 통해 얼굴영역 및 입술영역 검출을 위한 학습을 하고, 이후 실행모드시 입력 영상에 대해 얼굴영역을 추출하고 입술특징을 추출한다.Hereinafter, a method of obtaining lip shape information according to an embodiment of the present invention will be described with reference to FIG. 2. According to the present invention, a face image and a lip region are learned through color distribution learning using a sample image in a learning mode, and a face region is extracted from an input image and a lip feature is extracted in a run mode.
사용자가 학습모드를 선택하면(S201), 얼굴색 혹은 입술색 학습인 지를 확인하고(S202), 얼굴색분포모델학습부(132) 또는 입술색분포모델학습부(133)는 얼굴색분포모델 학습 서브루틴(S203) 혹은 입술색분포모델 학습 서브루틴(S204)을 실행한다. 한편, 사용자가 학습모드가 아닌 실행모드를 선택하면(S201), 입력 영상에 대해 얼굴영역 추출 서브루틴(S205)과 입술특징 추출 서브루틴(S206)을 수행한다.When the user selects the learning mode (S201), it is checked whether the face color or the lip color learning (S202), and the face color distribution model learning unit 132 or the lip color distribution model learning unit 133 is a face color distribution model learning subroutine ( S203) or the lip color distribution model learning subroutine (S204). Meanwhile, when the user selects an execution mode other than the learning mode (S201), the face region extraction subroutine S205 and the lip feature extraction subroutine S206 are performed on the input image.
도 3은 본 발명의 한 실시예에 따른 얼굴색분포모델학습부(132)의 얼굴색분포모델 학습 서브루틴의 상세한 동작 흐름도이다. 색상을 이용하여 얼굴영역을 분할하기 위해서는 어떤 색상이 얼굴영역을 구성하는 지에 대한 지식이 필요하다. 이 지식은 경험을 통해 대략적인 값으로 얻어질 수 있으나, 통계적인 관찰 결과를 통해 얼굴색을 학습하는 것이 가장 정확하다. 특정 색상이 얼굴색 인지는 얼굴색상확률(얼굴색유사도)로 표시할 수 있으며, 통계적 관찰 결과를 통해 특정 색상의 얼굴색상확률(얼굴색유사도)를 구할 수 있다. 도 3은 얼굴색분포모델학습부(132)가 각 색상의 얼굴색상확률(얼굴색유사도)을 구하는 과정이다.3 is a detailed operation flowchart of the face color distribution model learning subroutine of the face color distribution model learning unit 132 according to an embodiment of the present invention. In order to segment the face area using colors, knowledge of what color constitutes the face area is required. This knowledge can be approximated by experience, but learning face color through statistical observations is most accurate. Whether or not a specific color is a face color can be indicated by a face color probability (face similarity), and a statistical observation result can be used to obtain a face color probability (face similarity) of a specific color. 3 is a process in which the face color distribution model learning unit 132 obtains a face color probability (face color similarity) of each color.
도 3을 참조하면, 예제 영상이 입력되면(S301), 입력되는 예제 영상 프레임에 대해 각 픽셀의 RGB색상을 파악하고 RGB색상을 HS 색상으로 변환시킨다(S302). 그리고, 사용자로부터 얼굴영역이 지정되기를 대기한다(S303). 사용자로부터 얼굴영역이 지정되면(S303), 영상 전체의 색상분포히스토그램 FB(C)를 계산하여 앞서 구해진 FB(C)와 누적 합산하고(S304), 사용자에 의해 지정된 얼굴영역의 색상분포히스토그램 FF(C)를 계산하여 앞서 구해진 FF(C)와 누적 합산한다(S305). 상기한 단계 S301 내지 단계 S305를 모든 예제 영상에 대해 반복 처리한다(S306).Referring to FIG. 3, when an example image is input (S301), the RGB color of each pixel is grasped for the input example image frame and the RGB color is converted into an HS color (S302). In operation S303, the face area is designated by the user. When the face area is designated by the user (S303), the color distribution histogram F B (C) of the entire image is calculated and cumulatively summed with the previously obtained F B (C) (S304), and the color distribution histogram of the face area specified by the user obtained prior to calculating a F F (C) F F ( C) and the cumulative sum (S305). The above steps S301 to S305 are repeatedly processed for all the example images (S306).
다음, 모든 색상값에 대해 얼굴색상확률 PF(C)를 아래의 수학식 1에 적용하여 계산한다(S307). 각 색상값에 대한 얼굴색상확률 정보들이 얼굴색분포모델이 된다.Next, the face color probability P F (C) is calculated for all color values by applying the following Equation 1 (S307). The face color probability information for each color value becomes a face color distribution model.
임의의 색상 c1의 경우, 영상 전체를 구성하는 픽셀 중 색상 c1을 가지는 픽셀의 개수 FB(c1)와, 해당 프레임의 얼굴영역을 구성하는 픽셀 중 색상 c1을 가지는 픽셀의 개수 FF(c1)를 수학식 1에 적용하면, 해당 색상 c1이 얼굴색일 확률 PF(c1)이 얻어진다. 여기서, FB(c1)을 색상 c1의 얼굴 관찰 빈도수라고 하고, FF(c1)을 색상 c1의 얼굴 분류 빈도수라고 한다.In the case of the arbitrary color c1, the number of pixels F B (c1) having the color c1 among the pixels constituting the entire image, and the number of pixels having the color c1 among the pixels constituting the face region of the frame F F (c1) Is applied to Equation 1, the probability P F (c1) that the color c1 is the face color is obtained. Here, F B (c1) is called the face observation frequency of the color c1, and F F (c1) is called the face classification frequency of the color c1.
다음, 단계 S307에서 얻어진 얼굴색 모델을 가우시안 콘볼루션(Gaussian Convolution)하여 얼굴색분포모델을 일반화한다(S308). 가우시안 콘볼루션하는 이유를 설명하면, 단계 S307에서 구해진 얼굴색분포모델은 이산(Discrete)적인데 이는 관찰 경험에 제약이 따르기 때문이다. 즉, 미처 관찰하지 못했거나, 관찰은 하였으나 편향된 관찰을 하기 때문에 얼굴색분포모델이 이산적으로 얻어진다. 따라서, 도 4와 같이 이산적인 얼굴색분포모델을 가우시안 콘볼루션하여 선형적으로 변환함으로써, 마치 모든 색상에 대해 관찰한 것과 같은 효과를 얻는다.Next, the face color model obtained in step S307 is Gaussian Convolution to generalize the face color distribution model (S308). To explain the reason for Gaussian convolution, the face color distribution model obtained in step S307 is discrete because there is a limitation in the observation experience. That is, the face color distribution model is discretely obtained because it is not observed or is observed but biased. Thus, by linearly converting the discrete face color distribution model by Gaussian convolution as shown in FIG. 4, the effect as if observed for all colors is obtained.
다음, 이렇게 일반화된 얼굴색분포모델에 대해 HS값을 색인으로 하고 색상값과 얼굴색상확률(얼굴색유사도)을 매칭시켜서 얼굴색유사도테이블에 저장한다(S309).Next, the HS value is indexed for the generalized face color distribution model, and the color value and the face color probability (face color similarity) are matched and stored in the face color similarity table (S309).
상기한 얼굴색유사도테이블은 학습 동작에 의해 점차적으로 얼굴색상에 대한 색상유사도 정보를 누적하여 보유하는데, 이는 어떠한 색이 얼굴색인 지를 점차적으로 학습하는 것이다. 따라서, 얼굴색유사도테이블에 학습 데이터가 누적됨에 따라, 촬영시의 조명을 반영한 색상이나, 사람마다 각기 다른 피부색이 반영된 색상이 학습되기 때문에, 얼굴색유사도테이블은 조명이나 피부색에 영향을 받지 않고 얼굴영역을 파악할 수 있도록 하는 유용한 자료로 이용될 수 있다.The face color similarity table accumulates and retains color similarity information for the face color by a learning operation, which gradually learns which color is the face color. Therefore, as the training data accumulates in the face color similarity table, the color reflecting the illumination at the time of shooting or the color reflecting the different skin color is learned for each person. Therefore, the face color similarity table does not affect the lighting or skin color. It can be used as a useful source of information.
도 5는 본 발명의 한 실시예에 따른 입술색분포모델학습부(133)의 입술색분포모델 학습 서브루틴의 상세한 동작 흐름도이다. 입술색분포모델을 학습하는 서브루틴은 얼굴색분포모델 학습 서브루틴과 유사하다. 차이점이 있다면, 얼굴색분포모델 학습 서브루틴에서는 관찰 빈도수가 영상전체를 구성하는 픽셀 중 임의의 색상을 가지는 픽셀의 개수를 의미하고, 분류 빈도수가 얼굴영역을 구성하는 픽셀 중 임의의 색상을 가지는 픽셀의 개수를 의미하지만, 입술색분포모델 학습 서브루틴에서는 관찰 빈도수가 얼굴 하반부를 구성하는 픽셀 중 임의의 색상을 가지는 픽셀의 개수를 의미하고, 분류 빈도수가 입술영역을 구성하는 픽셀 중 임의의 색상을 가지는 픽셀의 개수를 의미한다.5 is a detailed operation flowchart of the lip color distribution model learning subroutine of the lip color distribution model learning unit 133 according to an embodiment of the present invention. The subroutine learning the lip color distribution model is similar to the face color distribution model learning subroutine. If there is a difference, in the face color distribution model training subroutine, the observation frequency means the number of pixels having any color among the pixels constituting the entire image, and the classification frequency is the number of pixels having any color among the pixels constituting the face area. In the lip color distribution model learning subroutine, the number of observations means the number of pixels having any color among the pixels constituting the lower half of the face, and the classification frequency has any color among the pixels constituting the lip region. It means the number of pixels.
도 5를 참조하여 입술색분포모델 학습 서브루틴을 설명한다. 예제 얼굴영상이 입력되면(S501), 입력되는 예제 얼굴영상 프레임에 대해 각 픽셀의 RGB색상을 파악하고 RGB색상을 HS 색상으로 변환시킨다(S502). 그리고, 사용자로부터 입술영역이 지정되기를 대기한다(S503). 사용자로부터 입술영역이 지정되면(S503), 얼굴 하반부 영역의 색상분포히스토그램 Flf(C)를 계산하여 앞서 구해진 Flf(C)와 누적 합산하고(S504), 사용자에 의해 지정된 입술영역의 색상분포히스토그램 Flip(C)를 계산하여 앞서 구해진 Flip(C)와 누적 합산한다(S505). 상기한 단계 S501 내지 단계 S505를 모든 예제 얼굴영상에 대해 반복 처리한다(S506).A lip color distribution model learning subroutine will be described with reference to FIG. 5. When the example face image is input (S501), the RGB color of each pixel is identified for the input example face image frame and the RGB color is converted into the HS color (S502). Then, the user waits for the lip region to be designated by the user (S503). If a lip region is specified from the user (S503), the color distribution histogram F lf (C) of the lower half of the face is calculated and cumulatively summed with the previously obtained F lf (C) (S504), and the color distribution of the lip region designated by the user is calculated. The histogram F lip (C) is calculated and cumulatively summed with the previously obtained lip (C) (S505). Steps S501 to S505 are repeated for all the example face images (S506).
다음, 모든 색상값에 대해 입술색상확률 Plip(C)를 아래의 수학식 2에 적용하여 계산한다(S507). 각 색상값에 대한 입술색상확률 정보들이 입술색분포모델이 된다.Next, a calculation by applying a lip color lip probability P (C) for all the color values in the equation (2) below (S507). Lip color probability information for each color value becomes the lip color distribution model.
임의의 색상 c1의 경우, 얼굴 하반부를 구성하는 픽셀 중 색상 c1을 가지는 픽셀의 개수 Flf(c1)와, 입술영역을 구성하는 픽셀 중 색상 c1을 가지는 픽셀의 개수 Flip(c1)를 수학식 2에 적용하면, 해당 색상 c1이 입술색일 확률 Plip(c1)이 얻어진다. 여기서, Flf(c1)을 색상 c1의 입술 관찰 빈도수라고 하고, Flip(c1)을 색상 c1의 입술 분류 빈도수라고 한다.For an arbitrary color c1, the number of pixels F lf (c1) having the color c1 among the pixels constituting the lower half of the face and the number of pixels F lip (c1) having the color c1 among the pixels constituting the lip region Applying to 2, the probability P lip (c1) is obtained that the color c1 is the lip color. Here, F lf (c1) is referred to as the lip observation frequency of the color c1, and F lip (c1) is referred to as the lip classification frequency of the color c1.
다음, 단계 S507에서 얻어진 입술색 모델을 가우시안 콘볼루션(Gaussian Convolution)하여 입술색분포모델을 일반화한다(S508). 여기서, 가우시안 콘볼루션하는 이유는 앞서 설명한 얼굴색분포모델을 일반화하는 이유와 동일하다.Next, the lip color model obtained in step S507 is Gaussian Convolution to generalize the lip color distribution model (S508). Here, the reason for Gaussian convolution is the same as the reason for generalizing the face color distribution model described above.
다음, 이렇게 일반화된 입술색분포모델에 대해 HS값을 색인으로 하고 색상값과 입술색상확률(입술색유사도)을 매칭시켜서 입술색유사도테이블에 저장한다(S509).Next, the HS values are indexed for the generalized lip color distribution model, and color values and lip color probabilities (lip color similarity) are matched and stored in the lip color similarity table (S509).
다음, 입술모양 예제와 반례를 이용하여 SVM(Support Vector Machine)을 학습한다(S510). 이때, SVM에 사용된 커널은 가우시안 커널로서, 수학식 3과 같이 표시된다. 이렇게 학습된 SVM 패턴 분류기는 추후 입술위치를 미세 조정하는 과정에 사용된다.Next, the SVM (Support Vector Machine) is learned using the lip shape example and inverse (S510). In this case, the kernel used for the SVM is a Gaussian kernel, which is represented by Equation 3 below. The learned SVM pattern classifier is used later to fine tune the lip position.
상술한 바와 같이 얼굴색과 입술색에 대한 학습을 한 후, 사용자가 실행모드를 실행시키면 얼굴영역 추출 서브루틴과 입술특징 추출 서브루틴이 수행되는데, 도 6은 본 발명의 한 실시예에 따른 얼굴영역 추출 서브루틴을 도시한 동작 흐름도이다.After learning about the face color and the lip color as described above, when the user executes the execution mode, the face region extraction subroutine and the lip feature extraction subroutine are performed. FIG. 6 illustrates a face region according to an embodiment of the present invention. An operational flow diagram illustrating an extraction subroutine.
본 발명에서는 입력 영상에 대해 영상의 각 픽셀에 대해 얼굴색유사도테이블을 적용하여 색상유사도를 얻고, 얻어진 색상유사도값으로부터 도 7에 도시된 바와 같이 그레이영상을 구성한다. 그리고, 이 영상을 통해 얼굴의 위치를 파악하고 이진화 및 타원 근사를 통해 얼굴의 위치와 크기를 얻는다. 이러한 얼굴영역 추출과정을 좀 더 상세하게 설명한다.In the present invention, a color similarity is obtained by applying a face color similarity table to each pixel of the image with respect to the input image, and a gray image is constructed as shown in FIG. 7 from the obtained color similarity values. Then, the position of the face is identified through this image, and the position and size of the face are obtained through binarization and elliptic approximation. This facial region extraction process will be described in more detail.
영상이 입력되면(S601), 입력된 영상의 RGB색상을 HSV색상으로 변환한다(S602). 그리고, 입력 영상의 각 픽셀에 대해 얼굴색유사도테이블에 적용하여 색상유사도를 구하고 얼굴색유사도영상을 얻는다(S603). 그리고, 얻어진 얼굴색 유사도영상을 이진화하고(S604), 이진화된 얼굴색 유사도영상을 타원모양으로 필터링하여 얼굴영역을 분할한다(S605).When an image is input (S601), the RGB color of the input image is converted into an HSV color (S602). Then, color similarity is obtained by applying the color similarity table to each pixel of the input image to obtain a face color similarity image (S603). Then, the obtained face color similarity image is binarized (S604), and the binarized face color similarity image is filtered into an ellipse shape to segment the face region (S605).
얼굴영역은 타원으로 근사될 수 있다. 따라서, 그레이 영상인 얼굴색 유사도영상을 이진화를 통해 얼굴영역을 구분하고, 이를 타원으로 추정하여 얼굴영역을 검출한다. 이때, 이진화된 영상은 다수의 잡영이 들어 있으므로, 무게중심과 모멘트 계산을 통해 타원으로 얼굴영역을 근사하여 얼굴영역을 추출한다. 모멘트 계산을 통해 얼굴의 타원영역을 추출하는 식은 아래와 같다.Face regions can be approximated by ellipses. Accordingly, the face region similarity image, which is a gray image, is divided through binarization, and the face region is detected by ellipsoid detection. At this time, since the binarized image contains a plurality of miscellaneous images, the face region is extracted by approximating the face region with an ellipse through the center of gravity and the moment calculation. The equation for extracting the elliptical region of the face through the moment calculation is as follows.
먼저, 영상의 y방향으로의 이차 모멘트를 yy, 2차 혼합 모멘트를 xy, x방향으로의 이차 모멘트를 xx라고 할 때, 그 값은 아래의 수학식 4와 같이 구한다.First, assuming that the secondary moment in the y direction of the image is yy, the secondary mixed moment is xy, and the secondary moment in the x direction is xx, the value is calculated as in Equation 4 below.
위의 식에서 A는 얼굴영역으로 되어 있는 픽셀의 개수를 의미한다. 타원의 영역을 나타내는 수식이 수학식 5일 때, 수학식 5를 구성하는 계수 d, e, f는 수학식 6과 같이 계산된다.In the above formula, A means the number of pixels of the face area. When the equation representing the area of the ellipse is Equation 5, the coefficients d, e, and f constituting Equation 5 are calculated as in Equation 6.
타원의 식을 구한 후, 타원의 내부의 점을 얼굴영역으로 삼고, 이에 대해 입술위치 검출 및 특징추출과정을 수행한다. 이를 위해, 분할된 얼굴영역의 HSV영상을 추출하여 입술특징 추출 서브루틴으로 제공하는데, 타원으로 근사화된 얼굴영역이 도 8에 도시된다.After obtaining the equation of the ellipse, the point inside the ellipse is used as the face region, and the lip position detection and feature extraction are performed. To this end, the HSV image of the divided face region is extracted and provided as a lip feature extraction subroutine. The face region approximated by an ellipse is shown in FIG. 8.
앞의 얼굴영역 추출 서브루틴에 의해 구해진 얼굴영역에 대해 입술의 위치를 찾고, 특징을 추출하는 과정을 수행하는데, 도 9는 본 발명의 한 실시예에 따른 입술특징 추출 서브루틴을 도시한 동작 흐름도이다.A process of searching for a position of a lip and extracting a feature with respect to a face region obtained by the previous face region extraction subroutine is performed. to be.
위의 얼굴영역 추출 서브루틴에서 검출된 얼굴은 거리에 따른 크기 차이가 있기 때문에 이를 상쇄해 주기 위해 크기 표준화를 수행한다(S901). 표준화는 얼굴의 폭을 기준으로 수행하며, 원래의 얼굴 폭-길이의 비는 일정하게 유지되도록 한다.Since the face detected by the face region extraction subroutine has a size difference according to the distance, size normalization is performed to offset the face (S901). Normalization is performed based on the width of the face, allowing the ratio of the original face width-length to remain constant.
다음, 얼굴영역의 HSV 영상의 입술색 유사도 영상을 구한다(S902). 이때, 얼굴 전체 영역에 대해 입술색 유사도 영상을 구하지 않고, 얼굴 하반부만을 대상으로 입술색유사도테이블을 이용하여 입술색 유사도 영상을 얻는다. 그리고, 구해진 입술색 유사도 영상에 대해서 무게중심을 계산하고 이를 입술의 초기 위치로 추정한다(S903). 유사도 영상의 각 점의 입술 유사도 값을 I(x,y)라고 할 때, 입술의 초기 위치 (Cx, Cy)는 아래의 수학식 7과 같이 계산된다.Next, a lip color similarity image of the HSV image of the face region is obtained (S902). At this time, the lip color similarity image is obtained for the entire face region, and the lip color similarity image is obtained using the lip color similarity table for the lower half of the face only. The center of gravity of the obtained lip color similarity image is calculated and estimated as the initial position of the lip (S903). When the lip similarity value of each point of the similarity image is I (x, y), the initial position of the lip (Cx, Cy) is calculated as in Equation 7 below.
그 후, 앞에서 찾은 입술의 초기 위치 (Cx, Cy)에서 x, y로 일정 범위에 대해 입술의 위치를 미세하게 검색한다. 지정된 범위 내에서 매칭 중심을 옮겨 가며 영상을 획득하고, 획득된 영상을 SVM 패턴 분류기에 입력하여 해당 영상이 입술인지 아닌 지를 판별한다. 즉, 검색범위의 모든 점을 이동하면서 SVM 패턴 분류기의 출력인 입술 정합도값을 계산하고(S904), 그 중 가장 큰 정합도를 갖는 위치를 입술 위치로 설정한다(S905).After that, the position of the lips is finely searched for a range from the initial position (Cx, Cy) of the previously found lips to x and y. The image is acquired by moving the matching center within a specified range, and the acquired image is input to the SVM pattern classifier to determine whether the image is a lip or not. That is, while all the points of the search range are moved, the lip matching degree value which is the output of the SVM pattern classifier is calculated (S904), and the position having the largest matching degree is set as the lip position (S905).
상기와 같이 얼굴영상으로부터 입술위치를 추출하는 과정이 도 10에 도시된다. 도 10의 가장 왼쪽에 위치한 그림은 입술색 유사도 영상이고, 그 옆의 그림은 유사도 영상의 무게중심 계산을 통해 구한 입술의 위치이다. 또한, 그 옆의 그림은 초기 입술의 위치로부터 일정 범위의 검색을 통해 계산된 SVM 입술 정합도값이며, 마지막으로 가장 오른쪽 그림은 SVM 입술 정합도값에 의해 조정된 입술의 위치를 나타낸다.A process of extracting the lip position from the face image as shown above is shown in FIG. 10. The leftmost picture of FIG. 10 is a lip color similarity image, and the picture next to it is a position of the lip obtained by calculating the center of gravity of the similarity image. Also, the figure next to it is the SVM lip registration value calculated through a range of searches from the initial lip position, and finally the rightmost figure shows the position of the lip adjusted by the SVM lip registration value.
다음, 단계 S905에서 설정된 입술 위치로부터 입술영상을 추출하고(S906), 추출된 입술영상으로부터 PCA를 이용하여 입술영상을 표현하기 위한 기저(basis)를 추출한다. 추출된 기저를 이용하면 입술영상에 대해서 도 11에 도시된 바와 같이 기저와 PCA 계수 c1, c2, …, cn을 얻을 수 있으며(S907), 이 PCA 계수(c 1, c2, …, cn)를 입술 특징으로 출력한다(S908). 이 PCA(Principal Component Analysis)는 특정 부류의 신호(예를 들면 얼굴영상, 입술영상)를 구성하는 구성요소(Principal Component)를 찾는 방법으로서, 신호가 어떤 기본 신호의 조합으로 구성되어 있는 지를 통계적으로 분석하는 방법이다. 이 구성요소를 편의상 기저(basis)라고 한다. 이 PCA에 관한 상세한 설명은 신경망 관련 서적(SimonHaykin, “Neural Networks”, Prenctice Hall)에 기술되어 있다.Next, a lip image is extracted from the lip position set in step S905 (S906), and a basis for expressing the lip image using the PCA is extracted from the extracted lip image. Using the extracted basis, the base and PCA coefficients c 1 , c 2 ,... , c n can be obtained (S907), and the PCA coefficients (c 1 , c 2 ,..., c n ) are output as lip features (S908). Principal Component Analysis (PCA) is a method of finding a component that constitutes a specific class of signals (eg, facial and lip images). How to analyze. This component is called a basis for convenience. A detailed description of this PCA is described in the book of Neural Networks (SimonHaykin, “Neural Networks”, Prenctice Hall).
입력 영상이 M장의 프레임으로 구성된 동영상인 경우, N차원 벡터 M개를 계산하여 입술특징으로 제공한다.When the input image is a moving picture consisting of M frames, M N-dimensional vectors are calculated and provided as lip features.
그러나, 추출된 특징은 화자간에 상이하므로, 이를 어느 정도 상쇄해주기 위해서 M장의 영상에 대해 평균벡터를 구한 후, 이로부터의 차이로 입술특징을 표현하는 것이 바람직하다. 따라서, 최종적으로 입술특징 c’은 아래의 수학식 8과 같이 계산된다.However, since the extracted features are different from one speaker to another, it is preferable to obtain an average vector of M images and then express the lip features by the difference therefrom. Therefore, the lip feature c 'is finally calculated as shown in Equation 8 below.
이상에서 본 발명에 대한 기술 사상을 첨부 도면과 함께 서술하였지만, 이는 본 발명의 가장 양호한 일 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 이 기술 분야의 통상의 지식을 가진 자이면 누구나 본 발명의 기술 사상의 범주를 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.Although the technical spirit of the present invention has been described above with reference to the accompanying drawings, it is intended to exemplarily describe the best embodiment of the present invention, but not to limit the present invention. In addition, it is obvious that any person skilled in the art may make various modifications and imitations without departing from the scope of the technical idea of the present invention.
이상과 같이 본 발명에 따르면 입술위치를 빠르고 정확하게 검출할 수 있기 때문에, 입 모양을 이용한 문자 인식에 적용가능할 수 있는 효과가 있다. As described above, according to the present invention, since the lip position can be detected quickly and accurately, there is an effect that can be applied to character recognition using a mouth shape.
도 1은 본 발명이 적용되는 입술모양정보 획득 시스템을 도시한 구성 블록도,1 is a block diagram showing a lip shape information acquisition system to which the present invention is applied;
도 2는 본 발명의 한 실시예에 따른 입술모양정보 획득방법을 도시한 동작 흐름도,2 is an operation flowchart illustrating a method of obtaining lip shape information according to an embodiment of the present invention;
도 3은 본 발명의 한 실시예에 따른 얼굴색분포모델학습부의 얼굴색분포모델 학습 서브루틴의 상세한 동작 흐름도,3 is a detailed operation flowchart of a face color distribution model learning subroutine of the face color distribution model learning unit according to one embodiment of the present invention;
도 4는 이산적인 얼굴색분포모델을 가우시안 콘볼루션하여 선형적으로 변환하는 과정을 도시한 도면,4 is a diagram illustrating a process of linearly converting a discrete face color distribution model by Gaussian convolution;
도 5는 본 발명의 한 실시예에 따른 입술색분포모델학습부의 입술색분포모델 학습 서브루틴의 상세한 동작 흐름도,5 is a detailed operation flowchart of a lip color distribution model learning subroutine of a lip color distribution model learning unit according to an embodiment of the present invention;
도 6은 본 발명의 한 실시예에 따른 얼굴영역 추출 서브루틴을 도시한 동작 흐름도,6 is an operation flowchart showing a face region extraction subroutine according to an embodiment of the present invention;
도 7은 입력 영상에 대해 얼굴색유사도테이블을 적용하여 얼굴색 유사도 및 그레이 영상을 구성하는 과정을 도시한 도면,7 is a diagram illustrating a process of forming a face color similarity and a gray image by applying a face color similarity table to an input image;
도 8은 타원으로 근사화된 얼굴영역을 도시한 도면,8 is a view showing an approximate face region by an ellipse;
도 9는 본 발명의 한 실시예에 따른 입술특징 추출 서브루틴을 도시한 동작 흐름도,9 is an operation flowchart showing a lip feature extraction subroutine according to an embodiment of the present invention;
도 10은 얼굴영상으로부터 입술위치를 추출하는 과정을 도시한 도면,10 is a view illustrating a process of extracting a lip position from a face image;
도 11은 PCA 계수를 이용한 영상 표현과정을 도시한 도면이다.11 is a diagram illustrating an image representation process using PCA coefficients.
<도면의 주요 부분에 대한 부호의 간단한 설명><Brief description of symbols for the main parts of the drawings>
110; 영상획득장치 120; 디스플레이장치110; Image acquisition apparatus 120; Display device
130; 신호처리장치 131; 영상프레임획득부130; Signal processing apparatus 131; Video frame acquisition unit
132; 얼굴색분포모델학습부 133; 입술색분포모델학습부132; Face color distribution model learning unit 133; Lip Color Distribution Model
134; 저장부 135; 얼굴색유사도영상획득부134; Storage 135; Face color similarity image acquisition unit
136; 얼굴영역검출부 137; 입술색유사도영상획득부136; Face area detection unit 137; Lip Color Similarity Image Acquisition
138; 입술위치추적부 139; 입술특징추출부138; Lip position tracking unit 139; Lip feature extraction
140; 제어부140; Control
Claims (23)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0057475A KR100532129B1 (en) | 2003-08-20 | 2003-08-20 | lip region segmentation and feature extraction method for Speech Recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0057475A KR100532129B1 (en) | 2003-08-20 | 2003-08-20 | lip region segmentation and feature extraction method for Speech Recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050019599A true KR20050019599A (en) | 2005-03-03 |
KR100532129B1 KR100532129B1 (en) | 2005-12-01 |
Family
ID=37228826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2003-0057475A KR100532129B1 (en) | 2003-08-20 | 2003-08-20 | lip region segmentation and feature extraction method for Speech Recognition |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100532129B1 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100924795B1 (en) * | 2007-12-18 | 2009-11-03 | 한국전자통신연구원 | Method and Apparatus for Discriminating Lip Movement Image |
KR100957194B1 (en) * | 2008-06-24 | 2010-05-11 | 동명대학교산학협력단 | The mouse interface system of between human and terminal, and control method |
US8559712B2 (en) | 2010-09-13 | 2013-10-15 | Hewlett-Packard Development Company, L.P. | Processing an image of a person's face |
US9390317B2 (en) | 2011-03-21 | 2016-07-12 | Hewlett-Packard Development Company, L.P. | Lip activity detection |
CN108446641A (en) * | 2018-03-22 | 2018-08-24 | 深圳市迪比科电子科技有限公司 | A method of degree of lip-rounding image identification system based on machine learning and passes through face line and identify sounding |
JP2020074100A (en) * | 2019-12-19 | 2020-05-14 | カシオ計算機株式会社 | Image processing device, image processing method, and program |
KR20200142131A (en) * | 2019-06-11 | 2020-12-22 | 서강대학교산학협력단 | Speech recognition device and operating method thereof |
-
2003
- 2003-08-20 KR KR10-2003-0057475A patent/KR100532129B1/en not_active IP Right Cessation
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100924795B1 (en) * | 2007-12-18 | 2009-11-03 | 한국전자통신연구원 | Method and Apparatus for Discriminating Lip Movement Image |
KR100957194B1 (en) * | 2008-06-24 | 2010-05-11 | 동명대학교산학협력단 | The mouse interface system of between human and terminal, and control method |
US8559712B2 (en) | 2010-09-13 | 2013-10-15 | Hewlett-Packard Development Company, L.P. | Processing an image of a person's face |
US9390317B2 (en) | 2011-03-21 | 2016-07-12 | Hewlett-Packard Development Company, L.P. | Lip activity detection |
CN108446641A (en) * | 2018-03-22 | 2018-08-24 | 深圳市迪比科电子科技有限公司 | A method of degree of lip-rounding image identification system based on machine learning and passes through face line and identify sounding |
KR20200142131A (en) * | 2019-06-11 | 2020-12-22 | 서강대학교산학협력단 | Speech recognition device and operating method thereof |
JP2020074100A (en) * | 2019-12-19 | 2020-05-14 | カシオ計算機株式会社 | Image processing device, image processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
KR100532129B1 (en) | 2005-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10372226B2 (en) | Visual language for human computer interfaces | |
JP4251719B2 (en) | Robust tracking system for human faces in the presence of multiple persons | |
US7869631B2 (en) | Automatic skin color model face detection and mean-shift face tracking | |
CN106960181B (en) | RGBD data-based pedestrian attribute identification method | |
KR20160143494A (en) | Saliency information acquisition apparatus and saliency information acquisition method | |
JP2003030667A (en) | Method for automatically locating eyes in image | |
Ishikura et al. | Saliency detection based on multiscale extrema of local perceptual color differences | |
KR100422709B1 (en) | Face detecting method depend on image | |
CN106778517A (en) | A kind of monitor video sequence image vehicle knows method for distinguishing again | |
JP6527421B2 (en) | Person recognition apparatus and program thereof | |
WO2018076484A1 (en) | Method for tracking pinched fingertips based on video | |
Kheirkhah et al. | A hybrid face detection approach in color images with complex background | |
JP4625949B2 (en) | Object tracking method, object tracking apparatus, and program | |
JP2017102622A (en) | Image processing device, image processing method and program | |
KR101932008B1 (en) | Image analysis apparatus and method based on feature and context of image | |
KR100532129B1 (en) | lip region segmentation and feature extraction method for Speech Recognition | |
KR20140037373A (en) | Apparatus and method for transferring a color of image | |
Izzah et al. | Translation of sign language using generic fourier descriptor and nearest neighbour | |
JP2007115109A (en) | Image processor and processing method, program and storage medium | |
Graf et al. | Robust recognition of faces and facial features with a multi-modal system | |
KR101408344B1 (en) | Apparatus for detecting face | |
Singh et al. | Template matching for detection & recognition of frontal view of human face through Matlab | |
Liu et al. | Automatic dynamic template tracking of inner lips based on CLNF | |
KR101621304B1 (en) | Active shape model-based lip shape estimation method and system using mouth map | |
CN113450369B (en) | Classroom analysis system and method based on face recognition technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20111108 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20111129 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |