KR101621304B1 - 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템 - Google Patents

마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템 Download PDF

Info

Publication number
KR101621304B1
KR101621304B1 KR1020140178965A KR20140178965A KR101621304B1 KR 101621304 B1 KR101621304 B1 KR 101621304B1 KR 1020140178965 A KR1020140178965 A KR 1020140178965A KR 20140178965 A KR20140178965 A KR 20140178965A KR 101621304 B1 KR101621304 B1 KR 101621304B1
Authority
KR
South Korea
Prior art keywords
landmark
lip
model
active
region
Prior art date
Application number
KR1020140178965A
Other languages
English (en)
Inventor
박형민
하주성
제창수
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020140178965A priority Critical patent/KR101621304B1/ko
Application granted granted Critical
Publication of KR101621304B1 publication Critical patent/KR101621304B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템에 관한 것으로서, 보다 바람직하게는 얼굴검출부가 외부로부터 입력 받은 영상 내 얼굴 영역을 검출하는 단계; 마우스맵변환부가 마우스맵(mouth map)을 통해 초기 형태의 입술 영역을 변환하고, 변환된 초기 형태의 입술 영역을 앞서 검출한 상기 얼굴 영역 내 존재하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크(landmark)를 생성하는 단계; 위치검색부가 상기 랜드마크에 대한 능동형태모델을 생성하기 위한 최적의 위치를 검색하는 단계; 능동형태모델 생성부가 검색된 최적의 위치로 상기 랜드마크를 이동시켜 상기 랜드마크에 대한 능동형태모델을 생성하는 단계; 및 주성분표시부가 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 정렬하여 상기 능동형태모델별 주성분(principal components) 정보를 표시하는 단계; 및 영상표시부가 상기 랜드마크에 대한 능동형태모델을 영상으로 표현하여 상기 입력 받은 영상 내 입술 형태를 추정하는 단계;를 포함한다.
이러한 구성에 의해, 본 발명의 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템은 영상 속 얼굴 또는 그 일부에 대해 색차(chrominance) 성분을 이용하여 입술 등 붉은 영역이 도드라지게 하는 마우스맵을 사용하여 컬러 영상으로부터 마우스맵을 얻고, 이들 능동형태모델에 적용하여 입술 형태를 보다 정확하게 추정할 수 있는 효과가 있다.

Description

마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템{Active shape model-based lip shape estimation method and system using mouth map}
본 발명은 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템에 관한 것으로, 특히 영상을 이용한 음성 인식분야에서 영상 내 입술 형태를 정확하게 인식하여 영상으로부터 정확한 음성 특징을 획득할 수 있는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템에 관한 것이다.
최근 들어, 기술의 발전에 따라 음성인식 기술이 스마트폰, 자동차, 가전기기 등과 같은 다양한 산업 분야에 적용되어 사용됨에 따라 그 연구의 중요성이 매우 확대되고 있다. 하지만 이와 같이 음성인식 기술이 널리 적용됨에도 불구하고, 주변잡음 또는 음성잡음이 심한 환경에서는 인식률이 저하되는 문제점이 있다. 따라서, 잡음이 많이 발생하는 환경에서는 음성 인식을 위해 사용되는 음성 신호외의 추가적인 정보를 이용하여 음성을 인식함으로써 음성인식 효율을 높인다.
이처럼, 사람의 음성을 인식할 때에도, 음성 신호뿐만 아니라 화자의 얼굴 및 입술을 보는 것으로부터 음성인식에 도움을 받듯이, 화자의 얼굴 움직임에 음성신호에 대한 유용한 정보가 있다는 것은 17세기부터 연구되어 왔고, 이러한 점을 음성인식에 활용하기 위해 영상으로부터 화자의 얼굴 움직에 대한 특징을 추출하는 다양한 알고리즘이 연구되고 있다. 이러한 알고리즘 중에서도 가장 널리 사용되고 있는 것 중 하나가 능동형태모델(active shape model)이다(T. F. Cootes, C. J. Taylor, D. H. Cooper, and J. Graham, "Active Shape Models - Their Training and Application," Computer Vision and Image Understanding, vol. 61, no. 1, pp. 38-59, 1995). 능동형태모델은 학습모델을 이용하여 원하는 객체의 형태를 획득할 수 있는 알고리즘으로서, 이러한 알고리즘을 사람의 얼굴이 포함된 영상에 적용하면, 영상에 포함된 사람의 얼굴로부터 이목구비의 특징들을 추출할 수 있고, 추출한 입술 형태의 특징을 립리딩에 적용할 수 있다.
이러한 능동형태모델을 사용하여 사람의 얼굴 (전체 또는 부분의) 형태를 획득하기 위해 다양한 방법이 연구되었는데, 대부분의 경우에는, 입력 영상이 본래 회색 영상(gray image)이거나, 입력 영상이 컬러 영상인 경우에도 이로부터 얻은 회색 영상으로부터 얼굴 형태 정보를 획득한다. 하지만 이러한 회색 영상 기반 얼굴 형태 획득 방법은 얼굴 또는 그 부위의 중요한 특징 정보를 담고 있는 컬러 정보를 사용하기 않는 단점이 있다. 또한 능동형태모델은 그 학습 단계에서부터 각 랜드마크(landmark)를 광도(intensity)의 그래디언트(gradient)가 큰 위치에 주로 설정하기 때문에, 적용(fitting) 단계에서도 광도(intensity)의 그래디언트(gradient)가 큰 위치들에 수렴할 가능성이 높다. 특히, 입술의 가장 자리에 위치한 랜드마크를 얻고자 하는 경우에, 영상 속의 화자가 입을 벌리고 있는 경우에는 종종 입 안의 치아들, 혀 및 잇몸 등의 배치에 의해 나타나는 에지(edge) 부근에 랜드마크가 수렴하여 입술 형태 추출에 심각한 오차를 야기하는 문제점이 있었다.
KR 10-2010-0080712 (립 리딩을 위한 입술 영역 설정 방법 및 장치, 삼성전자주식회사, 전남대학교 산학협력단) 2010.07.12.
상기와 같은 종래 기술의 문제점을 해결하기 위해, 본 발명은 영상 속 얼굴에서 색차(chrominance) 성분을 이용해 상대적으로 적혈구의 컬러가 우세한 입술, 잇몸 및 혀 등을 도드라지게 하는 마우스맵(mouth map)을 사용한다. 마우스맵에서는 붉은 색을 띠는 입술, 잇몸 및 혀 중에서도 (잇몸 및 혀는 상대적으로 어둡기 때문에) 특히 입술을 더 도드라지게 하는 특성이 있다. 본 발명에서는 입력 컬러영상으로부터 마우스맵을 얻고, 이를 능동형태모델에 적용함으로써, 입술 형태를 보다 정확하게 추정할 수 있는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템을 제공하고자 한다.
위와 같은 과제를 해결하기 위한 본 발명의 한 실시 예에 따른 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법은 얼굴검출부가 외부로부터 입력 받은 영상 내 얼굴 영역을 검출하는 단계; 마우스맵변환부가 마우스맵을 통해 초기 형태의 입술 영역을 변환하고, 변환된 초기 형태의 입술 영역을 앞서 검출한 상기 얼굴 영역 내 존재하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 생성하는 단계; 위치검색부가 상기 랜드마크에 대한 능동형태모델을 생성하기 위한 최적의 위치를 검색하는 단계; 능동형태모델 생성부가 검색된 최적의 위치로 상기 랜드마크를 이동시켜 상기 랜드마크에 대한 능동형태모델을 생성하는 단계; 및 주성분(principal components)표시부가 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 정렬하여 상기 능동형태모델별 주성분(principal components) 정보를 나타내는 단계; 및 영상표시부가 상기 랜드마크에 대한 능동형태모델을 영상으로 표현하여 상기 입력 받은 영상 내 입술 영역을 추정하는 단계;를 포함한다.
보다 바람직하게는 초기 형태의 입술 영역을 컬러 영상 형태로부터 색차 성분을 나타내는 마우스맵 영상 형태로 변환하는 과정; 및 변환된 초기형태의 입술 영역을 상기 검출한 얼굴 영역 내 위치하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 생성하는 과정; 을 포함하는 마우스맵변환부가 적어도 하나의 랜드마크를 생성하는 단계를 포함할 수 있다.
특히, 입술 영역에 대하여 붉은 색상 성분이 파란 색상 성분 보다 큰 색차 성분의 특성을 나타내는 마우스맵을 이용하여 상기 얼굴 영역으로부터 입술 영역이 도드라지도록 상기 입술 영역의 형태를 변환하는 초기 형태의 입술 영역을 마우스맵 영상 형태로 변환하는 과정을 포함할 수 있다.
특히, 상기 마우스맵에 기초하여 초기 형태의 입술 영역을 변환한 후, 상기 초기 형태의 입술 영역 중 윗입술 또는 아랫입술의 위치를 이동하는 것을 더 포함하는 초기 형태의 입술 영역을 마우스맵 영상 형태로 변환하는 과정을 포함할 수 있다.
보다 바람직하게는 상기 적어도 하나의 랜드마크를 이동시키고자 하는 복수 개의 후보 위치에 대한 특징 벡터를 추출하여 특징 벡터 모델을 생성하는 과정; 및 상기 랜드마크에 대한 특징 벡터 모델과 상기 복수 개의 후보 위치에 대한 특징 벡터 모델간에 거리를 비교하여 상기 랜드마크의 특징 벡터 모델과 가장 가까운 거리에 위치하는 특징 벡터 모델을 갖는 후보 위치를 상기 랜드마크의 능동형태모델을 생성하기 위한 최적의 위치로 판단하는 과정;을 포함하는 위치검색부가 상기 랜드마크의 능동형태모델을 생성하기 위해 최적의 위치를 검색하는 단계를 포함할 수 있다.
보다 바람직하게는 검색된 상기 최적의 위치로 상기 랜드마크를 이동시키는 과정; 상기 랜드마크의 좌표를 중심으로 하는 픽셀을 벡터로 추출하는 과정; 및 추출한 상기 벡터들의 평균값 및 공분산을 연산하고 이에 기초하여 상기 랜드마크에 대한 능동형태모델을 생성하는 과정;을 포함하는 능동형태모델 생성부가 검색된 최적의 위치로 상기 랜드마크를 이동시켜 상기 랜드마크의 능동형태모델을 생성하는 단계를 포함할 수 있다.
특히, 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 GPA(Generalized Procrustes Analysis) 분석 방법을 이용하여 하나의 형태로 정렬하는 주성분표시부가 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 정렬하여 상기 능동형태모델별 주성분 정보를 나타내는 단계를 포함할 수 있다.
특히, 상기 입력받은 영상에 대하여 비올라 존스(Viola-Jones) 알고리즘을 수행하여 얼굴 영역을 검출하는 얼굴검출부가 외부로부터 입력 받은 영상 내 얼굴 영역을 검출하는 단계를 포함할 수 있다.
위와 같은 과제를 해결하기 위한 본 발명의 다른 실시 예에 따른 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템은 외부로부터 입력 받은 영상 내 얼굴 영역을 검출하는 얼굴검출부; 마우스맵을 통해 초기 형태의 입술 영역을 변환하고, 변환된 초기 형태의 입술 영역을 앞서 검출한 상기 얼굴 영역 내 존재하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 생성하는 마우스맵변환부; 상기 랜드마크에 대한 능동형태모델을 생성하기 위한 최적의 위치를 검색하는 위치검색부; 검색된 최적의 위치로 상기 랜드마크를 이동시켜 상기 랜드마크에 대한 능동형태모델을 생성하는 능동형태모델 생성부; 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 정렬하여 상기 능동형태모델별 주성분 정보를 나타내는 주성분표시부; 및 상기 랜드마크에 대한 능동형태모델을 영상으로 표현하여 상기 입력 받은 영상 내 입술 영역을 추정하는 영상표시부;를 포함한다.
보다 바람직하게는 초기 형태의 입술 영역을 컬러 영상 형태로부터 색차 성분을 나타내는 마우스맵 영상 형태로 변환하는 마우스맵변환모듈; 및 변환된 초기형태의 입술 영역을 상기 검출한 얼굴 영역 내 위치하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 생성하는 랜드마크생성모듈;을 포함하는 마우스맵변환부를 포함할 수 있다.
특히, 입술 영역에 대하여 붉은 색상 성분이 파란 색상 성분 보다 큰 색차 성분의 특성을 나타내는 마우스맵을 이용하여 상기 얼굴 영역으로부터 입술 영역이 도드라지도록 상기 입술 영역의 형태를 변환한 후, 상기 초기 형태의 입술 영역 중 윗입술 또는 아랫입술의 위치를 이동하는 것을 더 포함하는 마우스맵변환모듈을 포함할 수 있다.
보다 바람직하게는 상기 적어도 하나의 랜드마크를 이동시키고자 하는 복수 개의 후보 위치에 대한 특징 벡터를 추출하여 특징 벡터 모델을 생성하는 특징벡터모델 생성모듈; 및 상기 랜드마크에 대한 특징 벡터 모델과 상기 복수 개의 후보 위치에 대한 특징 벡터 모델간에 거리를 비교하여 상기 랜드마크의 특징 벡터 모델과 가장 가까운 거리에 위치하는 특징 벡터 모델을 갖는 후보 위치를 상기 랜드마크의 능동형태모델을 생성하기 위한 최적의 위치로 판단하는 최적위치 연산모듈;을 포함하는 위치검색부를 포함할 수 있다.
보다 바람직하게는 검색된 상기 최적의 위치로 상기 랜드마크를 이동시키는 이동모듈; 상기 랜드마크의 좌표를 중심으로 하는 픽셀을 벡터로 추출하는 벡터연산모듈; 및 추출한 상기 벡터들의 평균값 및 공분산을 연산하고 이에 기초하여 상기 랜드마크에 대한 능동형태모델을 생성하는 능동형태모델 생성모듈;을 포함하는 능동형태모델 생성부를 포함할 수 있다.
특히, 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 GPA(Generalized Procrustes Analysis) 분석 방법을 이용하여 하나의 형태로 정렬하는 주성분표시부를 포함할 수 있다.
특히, 상기 입력받은 영상에 대하여 비올라 존스(Viola-Jones) 알고리즘을 수행하여 얼굴 영역을 검출하는 얼굴검출부를 포함할 수 있다.
본 발명의 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템은 영상 속 얼굴 또는 그 부분 영역에 대하여 색차 성분을 이용하여 입술 등 붉은 영역이 도드라져 보이도록 마우스맵을 사용하여 컬러 영상을 마우스맵 영상 형태로 변환 후, 능동형태모델에 적용하여 입술 형태를 보다 정확하게 추정할 수 있는 효과가 있다.
또한 본 발명의 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템은 음성 신호뿐만 아니라 화자의 얼굴이 포함된 영상을 이용하여 음성인식을 수행하는 경우, 음성신호를 이용하여 음성 인식을 수행하는 것보다 음성 인식 정확도를 향상시킬 수 있는 효과가 있다.
도 1은 랜드마크를 나타내는 모식도 및 영상이다.
도 2는 본 발명의 일 실시 예에 따른 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템의 블록도이다.
도 3은 본 발명의 다른 실시 예에 따른 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법의 순서도이다.
도 4는 컬러 영상 및 마우스맵 영상이다.
도 5는 마우스맵을 통해 변형된 초기 형태의 입술영역 및 이를 이용해 획득한 랜드마크를 나타낸 영상이다.
도 6은 랜드마크의 좌표 위치에 따라 서로 다른 질감을 나타낸 영상이다.
도 7은 랜드마크를 이동하고자 하는 후보 위치를 나타낸 영상이다.
도 8은 능동형태모델을 생성하는 과정을 나타낸 영상이다.
도 9는 능동형태모델의 형태 추출순서별 영상이다.
도 10은 영상 피라미드를 나타낸 도면이다.
도 11은 학습집합 형태들의 정렬 전후 과정을 나타낸 도면이다.
도 12는 입술 영역의 변형범위를 나타낸 도면이다.
도 13은 본 발명에 따라 획득한 입술 형태 추정 영상이다.
도 14는 능동형태모델로 자동 획득한 좌표를 나타낸 영상이다.
도 15은 CUAVE 동영상의 한 프레임 내 입술 부분 영상 및 이러한 입술 부분 영상을 Cb 및 Cr 변환을 수행한 영상이다.
도 16는 m ×n 비용행렬과 동적 프로그래밍에 의한 경로를 나타낸 도면이다.
도 17는 제약조건별 경로를 나타낸 도면이다.
도 18은 각 능동형태모델의 입술 랜드마크 획득 오차를 나타낸 그래프이다.
도 19은 각 제약조건별 화자 독립 및 종속 명령어 인식결과를 나타낸 그래프이다.
도 20은 각 제약조건별 화자 독립 및 종속 모음 인식결과를 나타낸 그래프이다.
도 21는 제약 조건 유무에 따른 경로를 나타낸 영상이다.
이하, 본 발명을 바람직한 실시 예와 첨부한 도면을 참고로 하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시 예에 한정되는 것은 아니다.
먼저, 본 발명에 대하여 설명하기에 앞서 능동형태모델에 대하여 간략히 살펴보도록 한다.
각종 영상에 포함되는 여러 객체에 대하여 상기 객체가 같은 종류라고 할지라도 동일한 모양을 갖지 않는 경우를 확인할 수 있다. 예를 들어, 의료영상의 경우에는 신체 내 장기들의 형태가 환자 개인마다 다르며, 빛이 장기까지 이르는 투과시간에 따라 장기의 모양이 크게 변할 수 있다. 이러한 경우에 객체의 형태가 어느 정도의 가변성을 갖도록 허용하는 변형모델을 사용할 수 있다.
이러한 경우 사용되는 능동형태모델은 영상에서 변형 가능한 객체를 표현하는 모델로서, 학습 영상들의 형태를 기반으로 하여 해당 객체의 변형된 다른 형태 또한 표현할 수 있는 강력한 형태 기술 기법이다.
예를 들어,
Figure 112014120840992-pat00001
개 좌표로 구성된 하나의 형태가 존재할 때, 하기의 수학식 1과 같이 하나의 벡터로 표현한다. 또한 학습 집합에서 객체의 좌표들은 도 1(a)에 도시된 바와 같이, 동일한 특징을 갖는 곳에서 동일한 색인을 갖는 형식으로 위치하며, 이때의 각 좌표를 랜드마크라고 정의하며, 이러한 랜드마크는 도 1(b)를 통해 확인할 수 있다.
Figure 112014120840992-pat00002
이와 같이, 능동형태모델을 이용한 알고리즘은 영상에서 형태를 추출하고자 하는 객체의 위치를 검출한 후 수행된다.
이하에서는 도 2를 참조하여, 본 발명의 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템에 대하여 자세히 살펴보도록 한다.
도 2는 본 발명의 일 실시 예에 따른 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템의 블록도이다.
도 2에 도시된 바와 같이, 본 발명의 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템(100)은 얼굴검출부(110), 마우스맵변환부(120), 위치검색부(130), 능동형태모델 생성부(140), 주성분표시부(150) 및 영상표시부(160)를 포함한다.
얼굴검출부(110)는 외부로부터 입력 받은 영상 내 얼굴 영역을 검출하는데, 이때, 비올라 존스(Viola-Jones) 알고리즘을 통해 입력 받은 영상 내 얼굴 영역을 검출할 수 있다.
마우스맵변환부(120)는 색차 성분을 이용하는 마우스맵을 통해 초기 형태의 입술 영역을 변환하고, 변환된 초기 형태의 입술 영역을 앞서 검출한 상기 얼굴 영역 내 존재하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 생성한다. 이러한 마우스맵변환부(120)는 마우스맵변환모듈 및 랜드마크추출모듈을 포함한다.
마우스맵변환모듈은 초기 형태의 입술 영역을 컬러 영상 형태로부터 색차 성분을 나타내는 마우스맵 영상 형태로 변환한다. 특히, 본 발명에서 형태를 추출하고자 하는 입술 영역 즉, 입과 그 주변 영역은 색차 성분 중 붉은 색상 성분이 크고, 파란 색상 성분이 작은 곳에서 상대적으로 큰 값을 갖는 마우스캡을 이용하여 상기 얼굴 영역으로부터 입술 영역이 도드라지도록 상기 초기 형태의 입술 영역의 형태를 컬러 영상에서 마우스맵 영상 형태로 변환하고, 이후, 상기 초기 형태의 입술 영역 중 윗입술 또는 아랫입술의 위치를 이동할 수 있다.
랜드마크추출모듈은 변환된 초기형태의 입술 영역을 상기 검출한 얼굴 영역 내 위치하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 추출한다.
위치검색부(130)는 상기 랜드마크에 대한 능동형태모델을 생성하기 위한 최적의 위치를 검색하며, 특징벡터생성모듈 및 최적위치 연산모듈을 포함한다.
특징벡터생성모듈은 상기 적어도 하나의 랜드마크를 이동시키고자 하는 복수 개의 후보 위치에 대한 특징 벡터를 추출하여 특징 벡터 모델을 생성한다.
최적위치 연산모듈은 상기 랜드마크에 대한 특징 벡터 모델과 상기 복수 개의 후보 위치에 대한 특징 벡터 모델간에 거리를 비교하여 상기 랜드마크의 특징 벡터 모델과 가장 가까운 거리에 위치하는 특징 벡터 모델을 갖는 후보 위치를 상기 랜드마크의 능동형태모델을 생성하기 위한 최적의 위치로 판단한다.
능동형태모델 생성부(140)는 검색된 최적의 위치로 상기 랜드마크를 이동시켜 상기 랜드마크에 대한 능동형태모델을 생성하는데, 이동모듈, 벡터연산모듈 및 능동형태모델 생성모듈을 포함한다.
이동모듈은 검색된 상기 최적의 위치로 상기 랜드마크를 이동시킨다.
벡터연산모듈은 상기 랜드마크가 이동한 좌표위치를 중심으로 하는 픽셀을 벡터로 추출한다.
능동형태모델 생성모듈은 추출한 상기 벡터들의 평균값 및 공분산을 연산하고 이에 기초하여 상기 랜드마크에 대한 능동형태모델을 생성한다.
주성분표시부(150)는 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 정렬하여 상기 능동형태모델별 주성분 정보를 표시한다. 특히, 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 GPA(Generalized Procrustes Analysis) 분석 방법을 이용하여 하나의 형태로 정렬할 수 있다.
영상표시부(160)는 상기 랜드마크에 대한 능동형태모델을 영상으로 표현하여 상기 입력 받은 영상 내 입술 형태를 추정한다.
도 3은 본 발명의 다른 실시 예에 따른 능동형태모델을 이용한 입술 형태 추정 방법의 순서도이다.
도 3에 도시된 바와 같이, 본 발명의 능동형태모델을 이용한 입술 형태 추정 방법은 먼저, 얼굴검출부(110)가 외부로부터 입력받은 영상 내 얼굴 영역을 검출한다(S210). 이때, 상기 얼굴검출부(110)는 상기 입력받은 영상에 대하여 비올라 존스(Viola-Jones) 알고리즘을 수행하여 상기 입력받은 영상으로부터 얼굴 영역을 검출할 수 있다.
마우스맵변환부(120)가 마우스맵을 통해 초기 형태의 입술 영역을 변환하고, 변환된 초기 형태의 입술 영역을 앞서 검출한 상기 얼굴 영역 내 존재하는 입술 영역의 상부에 중첩시켜 동일한 특징을 가지고, 동일한 색인을 갖는 적어도 하나의 랜드마크를 생성한다(S220).
즉, 이러한 마우스맵변환부(120)가 초기 형태의 입술 영역을 컬러 영상 형태로부터 색차 성분을 나타내는 마우스맵 영상 형태로 변환한다. 이때, 입술 영역 즉, 입과 그 주변 영역은 색차 성분 중 붉은 색상 성분이 크고, 파란 색상 성분이 작은 곳에서 상대적으로 큰 값을 갖는 마우스캡을 이용하여 상기 얼굴 영역으로부터 입술 영역이 도드라지도록 상기 초기 형태의 입술 영역의 형태를 변환할 수 있다. 또한, 상기 마우스맵에 기초하여 초기 형태의 입술 영역을 변환한 후, 상기 초기 형태의 입술 영역 중 윗입술 또는 아랫입술의 위치를 이동시킬 수 있다.
이때, 사용되는 마우스맵 색상 변환은 입술 부분이 얼굴 영역의 다른 부분에 비해 붉은 성분이 강하고 파란 성분이 약하기 때문에 입술 영역에서는 색차 성분
Figure 112014120840992-pat00003
Figure 112014120840992-pat00004
보다 큰 특성을 이용하여, 도 4에 도시된 바와 같이, 얼굴 영역에서 입술 영역이 도드라지도록 RGB 영상에서 마우스맵 영상 형태로 변환해준다.
즉, 입력 받은 영상에서 얼굴 영역이
Figure 112014120840992-pat00005
일 때, 하기의 수학식 2로 변환한다.
Figure 112014120840992-pat00006
또한, 랜드마크의 획득을 위해, 얼굴 내 입술 영역의 상부에 초기 형태의 입술 영역을 중첩시킬 때, 초기 형태의 입술 형태가 상기 얼굴 내 입술 영역 바로 위에 제대로 위치하지 않을 수 있다. 이러한 경우, 입술 형태를 정확하게 획득하기 어려움에 따라, 올바른 초기 형태의 입술 영역을 상기 얼굴 내 입술 영역에 위치시키는 것이 필요하다.
이에 따라, 도 5a(a)에 도시된 바와 같이, 이전에 수행한 영상 피라미드 결과를 그대로 사용하는 것이 아니라, 도 5a(b)에 도시된 바와 같이, 초기 형태의 입술 영역에 대하여 마우스맵 변환을 수행한 후, 상기 초기 형태의 입술 영역에 대하여 윗입술 또는 아랫입술을 일부 이동시켜 보다 정확한 입술 형태를 획득할 수 있도록 초기 형태의 입술영역을 조정해준다.
도 5b(a)는 초기 형태의 입술 영역에 대한 마우스맵 변환을 수행하지 않고 랜드마크를 획득한 영상이고, 도 5b(b)는 초기 형태의 입술 영역에 대한 마우스맵 변환을 수행하고 랜드마크를 획득한 영상을 나타낸다.
다시 도 3으로 돌아가서, 위치검색부(130)가 상기 랜드마크에 대한 능동형태모델을 생성하기 위한 최적의 위치를 검색한다(S230). 먼저, 상기 적어도 하나의 랜드마크를 이동시키고자 하는 복수 개의 후보 위치에 대한 특징 벡터를 추출하여 특징 벡터 모델을 생성한다. 즉, 형태를 구성하는 좌표정보들이 객체의 어떤 부위에 위치하는지에 따라 그 주변의 영상 특성이 서로 다르게 나타난다.
도 6은 랜드마크의 좌표 위치에 따라 서로 다른 질감을 나타낸 영상으로서, 한 사람의 오른쪽 눈과 입꼬리의 질감 정보를 나타내며, 서로 다른 특성을 갖는 것을 알 수 있다.
이러한 특성을 고려하여 영상에서 원하는 객체의 형태를 효과적으로 추정하기 위해 랜드마크 마다 각각의 특징벡터 모델을 사용한다. 만약,
Figure 112014120840992-pat00007
개의 랜드마크를 추출한다면
Figure 112014120840992-pat00008
개의 특징 벡터 모델이 존재한다.
이어서, 상기 랜드마크에 대한 특징 벡터 모델과 상기 복수 개의 후보 위치에 대한 특징 벡터 모델간에 거리를 비교하여 상기 랜드마크의 특징 벡터 모델과 가장 가까운 거리에 위치하는 특징 벡터 모델을 갖는 후보 위치를 상기 랜드마크의 능동형태모델을 생성하기 위한 최적의 위치로 판단한다.
이를 구현하기 위해, 먼저 랜드마크가 일정 범위에서 어떤 위치로 이동할지 프로파일을 한다.
도 7은 랜드마크를 이동하고자 하는 후보 위치를 나타낸 영상이다.
도 7에 도시된 바와 같이, 입술 오른쪽 꼬리의 초기 형태의 랜드마크(파란색)위치와 이동하고자 하는 복수 개의 후보 위치(노란색)를 확인할 수 있다. 이에 따라, 후보 위치의 각 특징을 추출하여, 해당하는 색인 랜드마크의 특징벡터 모델과 가장 가까운 거리를 갖는 특성 벡터 모델을 갖는 후보위치로 상기 랜드마크의 좌표를 이동시킨다.
능동형태모델 생성부(140)가 검색된 최적의 위치로 상기 랜드마크를 이동시켜 상기 랜드마크에 대한 능동형태모델을 생성한다(S240). 이러한 능동형태모델 생성부가 먼저 검색된 상기 최적의 위치로 상기 랜드마크를 이동시키고, 상기 랜드마크가 이동한 좌표위치를 중심으로 하는 픽셀을 벡터로 추출한다. 이후, 추출한 상기 벡터들의 평균값 및 공분산을 연산하고 이에 기초하여 상기 랜드마크에 대한 능동형태모델을 생성한다.
특히, 빛이나 피사체의 각도 또는 촬영 모델에 따라서 다른 컬러값을 가질 수 있기 때문에, 하기의 수학식 3을 통해 전처리 과정을 수행한 후, 2차원 프로파일 모델을 구할 수 있다.
Figure 112014120840992-pat00009
이때, 상기
Figure 112014120840992-pat00010
는 마우스맵으로 변환된 일정 영역의 한 픽셀값이고,
Figure 112014120840992-pat00011
는 그 영역의 평균값을 나타낸다. 이러한 함수 f(g(x, y))는 에지를 강조하고 잡음을 억누르는 기능을 한다.
도 8은 능동형태모델을 생성하는 과정을 나타낸 영상이다.
도 8에 도시된 바와 같이, 마우스맵으로 변환된
Figure 112014120840992-pat00012
개의 학습영상이 있을 때, 왼쪽 입 꼬리를 중심으로 하는 픽셀을 벡터로 추출하는 것을 나타낸다. 이와 같이, 추출한 열 벡터를
Figure 112014120840992-pat00013
라고 했을 때, 하기의 수학식 4 내지 수학식 5를 통해 능동형태모델을 구할 수 있다.
Figure 112014120840992-pat00014
Figure 112014120840992-pat00015
상술한 각 단계별 처리 영상은 도 9를 통해 확인할 수 있으며, 이러한 능동형태모델의 형태 추출과정을 복수 회 반복하여 도 10와 같은 영상 피라미드를 획득할 수 있다.
이후, 주성분표시부(150)가 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 정렬하여 상기 능동형태모델별 주성분 정보를 표시한다(S250). 이때, 상기 주성분표시부(150)가 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 GPA(Generalized Procrustes Analysis) 분석 방법을 이용하여 하나의 형태로 정렬할 수 있다.
즉, 학습 집합에 속한 여러 형태 들은 같은 종류의 객체일지라도 촬영환경 및 피사체 본연의 크기에 따라 다양한 모양을 가진다. 이처럼 서로 다른 형태들의 동일 색인 점들을 비교하기 위해, 다양한 모양의 형태들을 기준이 되는 하나의 형태로 정렬하고, 이때 GPA(Generalized Procrustes Analysis) 분석 방법을 사용한다. 이러한 GPA 분석방법은 학습 집합의 형태마다 기준형태에 가장 가깝게 변환하는 축척, 회전 그리고 이동에 대한 매개변수를 찾아 유사변환하는 것을 나타낸다.
하기의 수학식 6은
Figure 112014120840992-pat00016
Figure 112014120840992-pat00017
개 좌표로 이루어진 한 형태를
Figure 112014120840992-pat00018
만큼 축척, 회전 및 이동시키는 변환행렬이고,
Figure 112014120840992-pat00019
는 각 점들의 가중치일 때, 학습 집합의 한 형태
Figure 112014120840992-pat00020
가 기준형태
Figure 112014120840992-pat00021
에 가장 가깝게 정렬되는 매개변수를 찾기 위한 비용함수를 나타낸다.
Figure 112014120840992-pat00022
이하, 도 11을 통해 학습집합 형태들의 정렬 전후 과정을 비교하여 살펴볼 수 있다.
이후, 정렬된 능동형태모델에 대하여 주성분 정보를 분석하여 표시한다.
주성분 분석은 통계적으로 데이터 차원 축소를 가능하게 하는 기법으로서, 데이터에서 분산이 큰 축 들을 찾고, 새로 찾은 축에 차례로 데이터를 사영한다.
예를 들어,
Figure 112014120840992-pat00023
차원의 정렬된 학습형태
Figure 112014120840992-pat00024
개의 벡터의 집합
Figure 112014120840992-pat00025
이 있을 때, 하기의 수학식 7 내지 수학식 8을 통해 정렬된 능동형태모델의 평균과 공분산행렬을 연산한다.
Figure 112014120840992-pat00026
Figure 112014120840992-pat00027
상기 공분산행렬의 고유벡터
Figure 112014120840992-pat00028
들을 상응하는 고유치가 큰 것부터 작은 순서대로 배열한다. 즉, i번째 고유치
Figure 112014120840992-pat00029
의 크기는
Figure 112014120840992-pat00030
와 같다.
이때, 학습을 통해 획득한 평균형태와 공분산 행렬의 고유벡터
Figure 112014120840992-pat00031
개가 있을 때,
Figure 112014120840992-pat00032
개의 주요 고유벡터를 모아 직교행렬
Figure 112014120840992-pat00033
를 수학식 9와 같이 정의한다.
Figure 112014120840992-pat00034
이어서, 새로운 형태
Figure 112014120840992-pat00035
가 입력으로 들어왔을 때
Figure 112014120840992-pat00036
차원 벡터
Figure 112014120840992-pat00037
를 하기의 수학식 10을 통해 연산한다.
Figure 112014120840992-pat00038
이후,
Figure 112014120840992-pat00039
범위를 하기의 수학식 11과 같이 제한해 형태의 변형 정도에 제약을 주는 것으로
Figure 112014120840992-pat00040
를 구한다.
Figure 112014120840992-pat00041
도 12는
Figure 112014120840992-pat00042
일 때 형태가 변할 수 있는 변형 범위를 나타낸다.
이에 따라, 형태
Figure 112014120840992-pat00043
를 하기의 수학식 12와 같이 근사화할 수 있다.
Figure 112014120840992-pat00044
이후, 영상표시부(160)가 상기 랜드마크에 대한 능동형태모델을 영상으로 표현하여 상기 입력 받은 영상 내 입술 영역을 추정한다(S260).
도 13은 본 발명에 따라 획득한 입술 형태 추정 영상으로서, 빨간 색 부분에 해당하는 입술의 위, 아래 바깥 쪽 랜드마크들의 특징모델을 만들 때 마우스맵 영상으로 변환한 후 2차원 프로파일 모델링을 수행하였다.
또한, 입력받은 영상 중 랜드마크가 아닌 부분의 입술 영역이나 얼굴의 다른 부분들은 unrotated SIFT(unrotated scale invariant feature transform)기술자를 이용하는 Stasm4 라이브러리를 사용하여 영상을 처리한다(http://www.milbo.users.sonic.net/stasm/download.html).
이하에서는 입술 형태 획득의 정확도와 시각 음성인식률을 평가하는 과정을 수행하여 본 발명의 성능을 측정하였다.
입술 형태 획득의 정확도 측정을 위해, 수동으로 입력한 입술의 좌표정보를 ground-truth로 설정하고, 능동형태모델을 이용해 자동으로 획득한 좌표정보와의 평균 에러 및 표준편차를 구한다. 이때, 시각 음성인식 성능을 확인하기 위해 DTW(dynamic time warping) 알고리즘을 사용하여 처리하였다.
이러한 성능 평가의 실험 환경은 입술 형태 획득의 정확도 성능평가를 위해 11명의 모음 및 명령어 발음을 촬영하여, 797개 프레임에 대해 수동 랜드마크 입력 작업을 했고, 601개 프레임을 학습, 196개 프레임을 테스트로 사용하였다.
또한 사무실 공간에서 크로마 블루색상의 스크린을 배경으로 촬영하고, 모바일 장치로도 충분한 해상도의 컬러 동영상을 얻을 수 있다는 것을 보이기 위해 스마트폰을 사용하였다.
표 1은 획득한 동영상의 세부사항을 나타낸다.
장치 LG Optimus G pro(F240L)
해상도 1920 x 1088(Full HD)
화소 1300만
프레임속도 30프레임/초
도 14는 능동형태모델로 자동 획득한 좌표를 나타낸 영상으로서, 수동으로 입력한 ground-truth와 능동형태모델로 자동 획득한 좌표정보를 나타낸다.
하기의 수학식 13은 입술 좌표가 18개로 구성됐을 때, 능동형태모델을 이용하여 자동으로 획득한 입술 좌표
Figure 112014120840992-pat00045
와 수동으로 입력한 ground-truth 좌표
Figure 112014120840992-pat00046
의 오차를 구하는 것을 나타낸다.
Figure 112014120840992-pat00047
이어서, 시각 음성인식률 성능 측정을 위해 7명의 사람이 10개 명령어를 5회씩 발음한 것과, 11명의 사람이 모음을 3회씩 발음한 동영상을 촬영하였다. 2명의 첫 번째 시행들을 DTW의 템플레이트로 사용하고, 나머지 사람들의 시행들을 테스트 샘플로 사용한다. 이를 통해, 템플레이트와 테스트 샘플을 명령어 발음의 경우 20개, 250개, 모음발음은 10개, 135개를 획득하였다. 입력된 샘플을 인식할 때는 각 템플레이트와의 비용 중 가장 낮은 비용을 선택하는 것이 아니라, 같은 클래스에 속한 비용들의 평균이 가장 낮은 클래스로 인식하도록 하였다.
또한, 하기의 수학식 14와 같이, 비용행렬을 구할 때 마할라노비스 거리를 사용하였다.
Figure 112014120840992-pat00048
또한, 차량환경을 주제로 한 명령어들의 구성은 하기의 표 2와 같다.
명령어 라디오, 시디, 유에스비, 블루투스, 다음, 이전,
소리크게,
소리작게, 재생, 중지
프레임마다 추출한 특징은 얼굴 전체 랜드마크 77개를 획득한 뒤 입술 좌표 18개만 추출하여, 이를 일정 크기로 변환하기 위해 형태 정렬과정을 거친 후 주성분 분석으로 획득한 가중치 벡터
Figure 112014120840992-pat00049
Figure 112014120840992-pat00050
를 구한 것을 연쇄시켜 사용한다.
이때, 상기
Figure 112014120840992-pat00051
는 현재시간
Figure 112014120840992-pat00052
에서
Figure 112014120840992-pat00053
까지의 과거와
Figure 112014120840992-pat00054
까지의 미래 값을 고려한 회귀식을 사용해 구한다. 이를 통해 잡음에 강인한
Figure 112014120840992-pat00055
를 구할 수 있다. 형태 정렬에 사용한 참조 형태는 능동형태모델의 학습에 사용된 학습 집합 첫 번째 영상의 입술 형태를 사용하였다.
특히, 시각 음성인식을 위한 기존 DB는 CUAVE, Ouluvs 등이 있다. 하지만 이들은 도 15에 도시된 바와 같이, 컬러 정보가 압축된 포맷으로 제공되므로, 이를 사용하기에 적합하지 않기 때문에 본 실험에서는 배제한다.
또한, 음성인식은 다양한 화자 혹은 동일한 화자일지라도 개개의 발음마다 발화시간과 입 모양이 다를 수 있기 때문에 이러한 인식에 적합하다고 알려진 DTW 알고리즘을 사용한다.
상기 DTW 알고리즘은 서로 다른 두 temporal sequence의 유사한 정도를 측정하는 알고리즘으로서, 도 16에 도시된 바와 같이,
Figure 112014120840992-pat00056
개 시퀀스 길이를 가진 입력 샘플데이터와
Figure 112014120840992-pat00057
개 시퀀스를 가진 템플레이트 데이터가 있을 때,
Figure 112014120840992-pat00058
누적 비용 행렬을 만든 후 시작점
Figure 112014120840992-pat00059
에서 끝점
Figure 112014120840992-pat00060
으로 가는 최단 경로와 비용을 DP(dynamic programming)로 구한다.
Figure 112014120840992-pat00061
개 템플레이트를 미리 정해 놓은 뒤 입력 샘플이 들어왔을 때, 이 입력 샘플과 각 템플레이트 간 비용을 구해 가장 작은 비용을 갖는 템플레이트에 입력샘플이 가장 유사하다고 결정한다.
비용 행렬
Figure 112014120840992-pat00062
을 구성하는 성분들은 하기의 수학식 15와 같이, 입력 샘플의
Figure 112014120840992-pat00063
번째 시퀀스 특징
Figure 112014120840992-pat00064
와 템플레이트의
Figure 112014120840992-pat00065
번째 시퀀스 특징
Figure 112014120840992-pat00066
의 거리를 구한 것으로 구성된다.
Figure 112014120840992-pat00067
또한, 상기
Figure 112014120840992-pat00068
을 기반으로 만들어지는 누적 비용 행렬
Figure 112014120840992-pat00069
는 하기의 수학식 16과 같다.
Figure 112014120840992-pat00070
도 17은 제약조건별 경로를 나타낸 도면으로서, 상기 DTW의 두 전체 제약 조건인 (a)는 Sakoe-Chiba band와 (b)는 Itakura parallelogram을 보여준다. 그늘진 부분으로만 경로를 움직일 수 있는 제약을 주는 것으로, 경로탐색 속도를 올릴 뿐만 아니라 걷잡을 수 없는 경로 이탈을 방지할 수 있다.
본 발명에 따라 추출한 입술 랜드마크의 정확도를 측정하기 위해, Stasm3의 발전된 형태인 Stasm4를 이용하여 기존 방식과의 성능을 비교하였다.
도 18은 각 능동형태모델의 입술 랜드마크 획득 오차를 나타낸 그래프이다.
도 18에 도시된 바와 같이, 그래프의
Figure 112014120840992-pat00071
축은 각 테스트 영상마다 입술 ground-truth와 자동획득한 입술 좌표의 평균 오차를 구해서 오름차순으로 정렬한 것이고,
Figure 112014120840992-pat00072
축은 테스트 영상 개수가
Figure 112014120840992-pat00073
개 일때
Figure 112014120840992-pat00074
의 수 들을
Figure 112014120840992-pat00075
로 나눈 것이다. 범례의 a는 Stasm4를 그대로 사용한 방식이고, b는 Stasm4에 본 발명에 따른 입술 형태 초기화 조정을 추가한 것이다. c는 본 발명에서 형태 초기화 방법을 넣지 않은 방식이고, d는 본 발명을 그대로 적용한 것이다.
하기의 표 3은 평균 오차와 표준편차를 나타낸다.
능동형태모델 a b c d
평균 6.75 6.64 6.61 6.56
표준편차 4.80 3.64 2.48 2.39
이처럼, 도 18과 표 3을 통해 본 발명이 기존의 방법보다 낮은 평균 오차와 표준편차를 보임에 따라, 더 안정적이고 오차가 적은 입술 랜드마크 획득이 가능하다는 것을 알 수 있다.
또한, 시각 음성인식 성능을 평가하기 위해 DTW의 제약조건을 바꿔가며 화자독립, 화자종속 별로 인식률을 확인하였다.
하기의 표 4 내지 표 5는 제약이 없을 때, itakura parallelogram 제약이 있을 때, sakoe-chiba band 제약이 있을 때 각각의 명령어 및 모음 인식 결과를 나타낸다.
화자독립 화자종속
능동형태모델 a b c d a b c d
제약없음 50.0 52.0 59.2 62.4 92.6 94.0 94.0 94.6
Itakura 45.2 46.0 46.4 46.8 91.4 92.0 92.9 93.4
Sakoe-Chiba 51.2 53.6 63.6 65.6 92.9 93.7 94.0 94.3
화자독립 화자종속
능동형태모델 a b c d a b c d
제약없음 23.0 27.4 31.1 36.6 77.6 78.2 80.6 83.0
Itakura 22.2 20.7 21.5 21.5 76.4 80.0 78.8 83.6
Sakoe-Chiba 40.7 41.5 46.7 54.1 78.2 78.8 80.6 83.6
모음 발음 프레임은 많은 음소를 포함하고 있지 않기 때문에 단어인식에 비해 낮은 인식률을 보이는 것을 확인할 수 있다.
이에 해당하는 그래프를 도 19 내지 도 20을 통해 확인할 수 있다.
도 19는 각 제약조건별 화자 독립 및 종속 명령어 인식결과를 나타낸 그래프이고, 도 20은 각 제약조건별 화자 독립 및 종속 모음 인식결과를 나타낸 그래프이다.
화자독립인 경우에는 본 발명에 따른 방법에 sakoe-chiba band 제약이 있을 때 가장 높은 성능을 보였다. 더욱 정확한 입술 형태 추출이 가능한 능동형태모델을 사용했을 때 더 나은 인식을 기대할 수 있다는 것을 나타낸다.
또한, 화자종속인 경우에는 본 발명에 따른 방법이 가장 높은 성능을 보이면서 서로 다른 제약조건에 따른 결과가 유사하게 나왔다.
누적 비용 행렬의 시점에서 종점의 경로를 탐색할 때 제약이 없는 경우에는 종점에 도달하지 못하는 경우가 종종 발생하여 올바른 비용을 획득하지 못하는 경우가 있지만, 특정 제약이 있을 경우 종점까지 도달하도록 도움을 줄 수 있다.
도 21은 제약 조건 유무에 따른 경로를 나타낸 영상으로서, 한 샘플이 제약이 없을 때 종점에 도달하지 못한 경우와 sakoe-chiba band 제약이 있을 때 도달한 경로를 보여준다.
상술한 실험을 통하여 본 발명에 따른 능동형태모델의 입술 영역 프로파일 방식이 종래 방식보다 더 나은 입술 형태 획득 및 시각 음성인식률 성능을 보인다는 것을 확인하였다. Ground truth 와의 적은 오차와 작은 분산을 보였으며, 이에 따른 시각 음성인식 성능을 비교한 결과 더 나은 성능을 확인하였다.
또한, 프로파일 방식만을 바꾸는 것이 아니라 입술의 초기 형태도 조정하는 과정을 통해 보다 정확한 입술 형태를 추출할 수 있다는 결과를 확인할 수 있었다. 이러한 실험결과를 통해, 입술 형태 획득을 정확하게 할수록 립리딩과 같은 응용분야에서 좋은 성능을 얻을 수 있다는 것을 기대할 수 있다.
또한, 이러한 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법은 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체에 저장될 수 있다. 이때, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명의 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템은 영상 속 입술의 형태 추정을 정확하게 수행할 수 있는 효과가 있다.
또한 본 발명의 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템은 영상을 통해 음성인식을 수행하는 경우, 보다 정확한 입술 형태 추정을 통해 음성인식률을 향상시킬 수 있는 효과가 있다.
상기에서는 본 발명의 바람직한 실시 예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 본 발명의 기술 사상 범위 내에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 첨부된 특허청구범위에 속하는 것은 당연하다.
110: 얼굴검출부 120: 마우스맵변환부
130: 위치검색부 140: 능동형태모델 생성부
150: 주성분 표시부 160: 영상 표시부

Claims (14)

  1. 얼굴검출부가 외부로부터 입력받은 영상 내 얼굴 영역을 검출하는 단계;
    마우스맵변환부가 마우스맵을 통해 초기 형태의 입술 영역을 변환하고, 변환된 초기 형태의 입술 영역을 앞서 검출한 상기 얼굴 영역 내 존재하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 추출하는 단계;
    위치검색부가 상기 적어도 하나의 랜드마크를 이동시키고자 하는 복수 개의 후보 위치에 대한 특징 벡터를 추출하여 특징 벡터 모델을 생성하고, 상기 랜드마크에 대한 특징 벡터 모델과 상기 복수 개의 후보 위치에 대한 특징 벡터 모델간의 거리를 비교하여 상기 랜드마크에 대한 능동형태모델을 생성하기 위한 최적의 위치를 검색하는 단계;
    능동형태모델 생성부가 검색된 최적의 위치로 상기 랜드마크를 이동시켜 상기 랜드마크에 대한 능동형태모델을 생성하는 단계;
    주성분표시부가 상기 적어도 하나의 랜드마크에 대한 능동형태모델을 정렬하여 상기 능동형태모델별 주성분 정보를 표시하는 단계; 및
    영상표시부가 상기 랜드마크에 대한 능동형태모델을 영상으로 표현하여 상기 입력 받은 영상 내 입술 형태를 추정하는 단계;
    를 포함하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법.
  2. 제1항에 있어서,
    상기 마우스맵변환부가 적어도 하나의 랜드마크를 추출하는 단계는
    초기 형태의 입술 영역을 컬러 영상 형태로부터 색차 성분을 나타내는 마우스맵 영상 형태로 변환하는 과정; 및
    변환된 초기형태의 입술 영역을 상기 검출한 얼굴 영역 내 위치하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 생성하는 과정;
    을 포함하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법.
  3. 제2항에 있어서,
    상기 초기 형태의 입술 영역을 마우스맵 영상 형태로 변환하는 과정은
    입과, 상기 입의 주변 영역에 대하여 색차 성분 중 붉은 색상 성분이 크고 파란 색상 성분이 작은 곳에서 더 큰 값을 갖는 마우스맵을 이용하여 상기 얼굴 영역으로부터 입술 영역이 도드라지도록 상기 입술 영역의 형태를 변환하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법.
  4. 제3항에 있어서,
    상기 초기 형태의 입술 영역을 마우스맵 영상 형태로 변환하는 과정은
    상기 마우스맵에 기초하여 초기 형태의 입술 영역을 변환한 후, 상기 초기 형태의 입술 영역 중 윗입술 또는 아랫입술의 위치를 이동하는 것을 더 포함하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법.
  5. 제1항에 있어서,
    상기 최적의 위치를 검색하는 단계는
    상기 랜드마크의 특징 벡터 모델과 가장 가까운 거리에 위치하는 특징 벡터 모델을 갖는 후보 위치를 상기 랜드마크의 능동형태모델을 생성하기 위한 최적의 위치로 판단하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법.
  6. 제1항에 있어서,
    상기 능동형태모델 생성부가 검색된 최적의 위치로 상기 랜드마크를 이동시켜 상기 랜드마크의 능동형태모델을 생성하는 단계는
    검색된 상기 최적의 위치로 상기 랜드마크를 이동시키는 과정;
    상기 랜드마크의 좌표를 중심으로 하는 픽셀을 벡터로 추출하는 과정; 및
    추출한 상기 벡터들의 평균값 및 공분산을 연산하고 이에 기초하여 상기 랜드마크에 대한 능동형태모델을 생성하는 과정;
    을 포함하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법.
  7. 제1항에 있어서,
    상기 얼굴검출부가 외부로부터 입력 받은 영상 내 얼굴 영역을 검출하는 단계는
    상기 입력받은 영상에 대하여 비올라 존스(Viola-Jones) 알고리즘을 수행하여 얼굴 영역을 검출하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체.
  9. 외부로부터 입력 받은 영상 내 얼굴 영역을 검출하는 얼굴검출부;
    마우스맵을 통해 초기 형태의 입술 영역을 변환하고, 변환된 초기 형태의 입술 영역을 앞서 검출한 상기 얼굴 영역 내 존재하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 추출하는 마우스맵변환부;
    상기 적어도 하나의 랜드마크를 이동시키고자 하는 복수 개의 후보 위치에 대한 특징 벡터를 추출하여 특징 벡터 모델을 생성하는 특징벡터모델 생성모듈과, 상기 랜드마크에 대한 특징 벡터 모델과 상기 복수 개의 후보 위치에 대한 특징 벡터 모델간에 거리를 비교하는 최적위치 연산모듈을 이용하여 상기 랜드마크에 대한 능동형태모델을 생성하기 위한 최적의 위치를 검색하는 위치검색부;
    검색된 최적의 위치로 상기 랜드마크를 이동시켜 상기 랜드마크에 대한 능동형태모델을 생성하는 능동형태모델 생성부;
    상기 적어도 하나의 랜드마크에 대한 능동형태모델을 정렬하여 상기 능동형태모델별 주성분 정보를 표시하는 주성분표시부; 및
    상기 랜드마크에 대한 능동형태모델을 영상으로 표현하여 상기 입력 받은 영상 내 입술 형태를 추정하는 영상표시부;
    를 포함하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템.
  10. 제9항에 있어서,
    상기 마우스맵변환부는
    초기 형태의 입술 영역을 컬러 영상 형태로부터 색차 성분을 나타내는 마우스맵 영상 형태로 변환하는 마우스맵변환모듈; 및
    변환된 초기형태의 입술 영역을 상기 검출한 얼굴 영역 내 위치하는 입술 영역의 상부에 중첩시켜 적어도 하나의 랜드마크를 추출하는 랜드마크추출모듈;
    을 포함하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템.
  11. 제10항에 있어서,
    상기 마우스맵변환모듈은
    입과, 상기 입의 주변 영역에 대하여 색차 성분 중 붉은 색상 성분이 크고 파란 색상 성분이 작은 곳에서 더 큰 값을 갖는 마우스맵을 이용하여 상기 얼굴 영역으로부터 입술 영역이 도드라지도록 상기 입술 영역의 형태를 변환한 후, 상기 초기 형태의 입술 영역 중 윗입술 또는 아랫입술의 위치를 이동하는 것을 더 포함하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템.
  12. 제9항에 있어서,
    상기 위치검색부는
    상기 랜드마크의 특징 벡터 모델과 가장 가까운 거리에 위치하는 특징 벡터 모델을 갖는 후보 위치를 상기 랜드마크의 능동형태모델을 생성하기 위한 최적의 위치로 판단하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템.
  13. 제9항에 있어서,
    상기 능동형태모델 생성부는
    검색된 상기 최적의 위치로 상기 랜드마크를 이동시키는 이동모듈;
    상기 랜드마크의 좌표를 중심으로 하는 픽셀을 벡터로 추출하는 벡터연산모듈; 및
    추출한 상기 벡터들의 평균값 및 공분산을 연산하고 이에 기초하여 상기 랜드마크에 대한 능동형태모델을 생성하는 능동형태모델 생성모듈;
    을 포함하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템.
  14. 제9항에 있어서,
    상기 얼굴검출부는
    상기 입력받은 영상에 대하여 비올라 존스(Viola-Jones) 알고리즘을 수행하여 얼굴 영역을 검출하는 것을 특징으로 하는 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 시스템.
KR1020140178965A 2014-12-12 2014-12-12 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템 KR101621304B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140178965A KR101621304B1 (ko) 2014-12-12 2014-12-12 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140178965A KR101621304B1 (ko) 2014-12-12 2014-12-12 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR101621304B1 true KR101621304B1 (ko) 2016-05-16

Family

ID=56109225

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140178965A KR101621304B1 (ko) 2014-12-12 2014-12-12 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101621304B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101779840B1 (ko) * 2016-11-25 2017-09-19 가톨릭대학교 산학협력단 미소 검출 기반 얼굴 분석 장치 및 방법
KR102018142B1 (ko) * 2018-12-12 2019-09-06 대한민국 수위감지 알고리즘의 검증 방법
WO2022173180A1 (ko) * 2021-02-15 2022-08-18 연세대학교 산학협력단 입술 움직임 정보 분석 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011015974A (ja) * 2010-08-18 2011-01-27 Shiseido Co Ltd 唇の形状評価方法及び評価マップ

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011015974A (ja) * 2010-08-18 2011-01-27 Shiseido Co Ltd 唇の形状評価方法及び評価マップ

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
논문1*
논문2
논문4*

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101779840B1 (ko) * 2016-11-25 2017-09-19 가톨릭대학교 산학협력단 미소 검출 기반 얼굴 분석 장치 및 방법
KR102018142B1 (ko) * 2018-12-12 2019-09-06 대한민국 수위감지 알고리즘의 검증 방법
WO2022173180A1 (ko) * 2021-02-15 2022-08-18 연세대학교 산학협력단 입술 움직임 정보 분석 방법 및 장치

Similar Documents

Publication Publication Date Title
CN110866953B (zh) 地图构建方法及装置、定位方法及装置
Ko et al. Sign language recognition with recurrent neural network using human keypoint detection
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
CN110659582A (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
JP6624794B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN112084927B (zh) 一种融合多种视觉信息的唇语识别方法
CN107766864B (zh) 提取特征的方法和装置、物体识别的方法和装置
Yargıç et al. A lip reading application on MS Kinect camera
Huong et al. Static hand gesture recognition for vietnamese sign language (VSL) using principle components analysis
JP2017228224A (ja) 情報処理装置、情報処理方法及びプログラム
US9922241B2 (en) Gesture recognition method, an apparatus and a computer program for the same
KR101187600B1 (ko) 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
JP2017033372A (ja) 人物認識装置及びそのプログラム
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
CN111898571A (zh) 动作识别系统及方法
Hrúz et al. Local Binary Pattern based features for sign language recognition
JP5846552B2 (ja) 手話認識方法及びその装置
JP2007213528A (ja) 行動認識システム
KR20140024206A (ko) 입술 검출 및 추적을 위한 방법 및 장치
JP4570995B2 (ja) マッチング方法およびマッチング装置ならびにプログラム
JP7370050B2 (ja) 読唇装置及び読唇方法
CN106406507B (zh) 图像处理方法以及电子设备
JP6393495B2 (ja) 画像処理装置および物体認識方法
KR100532129B1 (ko) 음성 인식을 위한 입술영역 검출 및 이를 이용한입술모양정보 획득방법
Ibrahim A novel lip geometry approach for audio-visual speech recognition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190325

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200304

Year of fee payment: 5