KR100924795B1 - 입술움직임 영상 판별 방법 및 그 장치 - Google Patents

입술움직임 영상 판별 방법 및 그 장치 Download PDF

Info

Publication number
KR100924795B1
KR100924795B1 KR1020070133391A KR20070133391A KR100924795B1 KR 100924795 B1 KR100924795 B1 KR 100924795B1 KR 1020070133391 A KR1020070133391 A KR 1020070133391A KR 20070133391 A KR20070133391 A KR 20070133391A KR 100924795 B1 KR100924795 B1 KR 100924795B1
Authority
KR
South Korea
Prior art keywords
image
lip movement
lip
classification
area
Prior art date
Application number
KR1020070133391A
Other languages
English (en)
Other versions
KR20090065866A (ko
Inventor
이수종
박준
김상훈
이윤근
김응규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070133391A priority Critical patent/KR100924795B1/ko
Publication of KR20090065866A publication Critical patent/KR20090065866A/ko
Application granted granted Critical
Publication of KR100924795B1 publication Critical patent/KR100924795B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 음성인식을 위해 수신되는 비디오를 분석하여 입술움직임이 있는지의 여부를 확인할 때, 다양한 움직임 영상을 대상으로 입술움직임 영상과 그 이외의 영상을 분류하는 입술움직임 영상 판별 방법 및 그 장치에 관한 것으로, 본 발명은 온라인 입술움직임 영상 판별 방법에 있어서, 촬영수단으로부터 수신되는 움직임영상프레임을 분석하여 입술움직임 영상에 대한 최종후보를 추출하는 제 1 단계; 및 영상추출수단으로부터 수신되는 상기 최종후보를 입술움직임 변별력 특징을 기준으로 입술움직임 영역과 여타요소 움직임 영역으로 온라인 상에서 레이블링하고, 최종후보 중에서 입술움직임 영역 및 여타요소 움직임 영역으로 분류되지 않은 최종후보에 대한 입술움직임 영상 여부를 SVM 영역분류구분선을 근거로 판별하는 제 2 단계;를 포함하는 것을 특징으로 한다.
SVM 패턴분류, 입술움직임 영상 판별

Description

입술움직임 영상 판별 방법 및 그 장치{Method and Apparatus for Discriminating Lip Movement Image}
본 발명은 입술움직임 영상 판별 방법 및 그 장치에 관한 것으로, 특히, 본 발명은 음성인식을 위해 수신되는 비디오를 분석하여 입술움직임이 있는지의 여부를 확인 할 때, 다양한 움직임 영상을 대상으로 입술움직임 영상과 그 이외의 영상을 분류하는 입술움직임 영상 판별 방법 및 그 장치에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량/대화형 분산/내장처리 음성인터페이스 기술개발(Development of large vocabulary/interactive distributed/embedded VUI for new growth engine industries)].
일반적으로 음성인식은 음성으로 가전기기나 단말기를 제어하거나 원하는 정보를 음성으로 접근할 수 있는 매우 편리한 기능으로 최근 지능형로봇, 텔레매틱스, 홈네트워크 등에 응용하고자 하는 사례가 증가하고 있다. 특히 지능형로봇의 경우, 키보드나 마우스 등의 인터페이스가 매우 곤란하므로, 음성인식, 영상인식 (제스처, 문자인식), 센서(초음파, 적외선) 등의 인터페이스가 효과적인 방법으로 알려져 있는데, 그 중 특히 음성인식은 사용자에게 가장 자연스러운 인터페이스로서 정확한 음성인식율을 높이기 위한 다양한 방법이 제안되고 있다.
최근에는 음성인식율을 높이기 위해서 음성인식 과정에 예고없이 유입될 수 있는 음향잡음을 음성과 구분하려는 연구가 진행되고 있다. 예를 들어, 음성수신용 마이크와 PC용 촬영수단이 장착된 환경 하에서 음성인식 서비스를 수행하는 경우에, 마이크를 통해 입력되는 음향정보를 분석하는 동시에 카메라를 통하여 수신되는 비디오를 분석하여 입술움직임이 있는지의 여부를 확인함으로써 마이크에 수신된 음향이 사람의 발성에 의한 것인지를 판별하는 것이다.
그러나, 종래의 음성인식 방법은 음향잡음 환경 하에서 음성인식 성능을 높이기 위한 방안의 일환(입술변화에 관한 영상인식 분야의 하나)으로 주로 영상 프레임 단위로 특징을 분석하고, 서로 비교함으로써 계산량 증가에 따른 활용의 어려움을 겪고 있었다.
특히, 화자의 입술을 찾기 위해서는 얼굴인식을 수행한 후에 얼굴 내에서의 입술위치를 추정하는 방법을 사용해야 하므로, 얼굴을 찾는 단계와 계산량 감소를 위해서 보통은 입술위치에 카메라의 초점을 맞춰 분석한다. 즉, 입술을 찾았다는 전제하에 입술의 변화를 분석하는 것이다. 입술분석 방법은 주로 입술의 윤곽선을 추출한 후 가로, 세로, 모양 등의 정보를 활용하게 되는데, 조명의 변화와 입술움직임 자체가 워낙 변화가 많으므로 표준화된 데이터로 활용하기가 어렵다는 문제점이 있었다.
한편, 종래의 음성인식을 위한 영상으로부터 인접 프레임간에 픽셀단위의 차이를 구하여, 움직임 영상 프레임을 별도로 생성하여 분석함으로써 계산량을 줄이더라도, 입술움직임 여부를 분류하기 위한 임계값 설정이 어렵기 때문에 보다 정확한 분류방법이 요구되어 왔다.
상술한 문제를 해결하기 위하여 안출된 것으로, 본 발명은 음성인식 과정에서 입술움직임 여부를 확인하여, 외부 음향잡음이 음성인식 대상으로 오인식되지 않도록 방지하기 위한 방안의 일환으로, 사람 얼굴에 대한 움직임 영상을 수신하는 온라인 상황 하에서 SVM 패턴분류 알고리즘을 적용하여 입술움직임과 여타 움직임의 두 가지 영역으로 레이블링하는 한편 영역분류구분선을 자동산출하여 입술움직임 여부를 보다 정확히 판별하기 위한 입술움직임 영상 판별 방법 및 그 장치를 제공하는 것이다.
본 발명의 일실시예에 따른 입술움직임 영상 판별 방법은 입술움직임 영상 판별 방법으로서, 촬영수단으로부터 수신되는 사람 얼굴에 대한 움직임 영상 프레임들을 분석하여 입술움직임에 대한 영상으로 추정되는 최종후보들을 추출하는 제 1 단계; 및 추출된 최종후보들 각각을 입술움직임에 대한 변별력 특징을 분류기준으로 좌표평면상에 분류해서 입술움직임 영상인지의 여부를 판단하되, 분류된 최종후보들 중에서 분류기준의 임계영역에 위치하는 최종후보들을 영역분류구분선을 근 거로 입술움직임 영상 인지의 여부를 판별하는 제 2 단계;를 포함하는 것을 특징으로 한다.
본 발명의 제 2 단계는, 추출된 최종후보들 각각을 입술움직임에 대한 변별력 특징을 분류기준으로 하여 좌표평면상에 표시하는 제 2-1 단계; 입술움직임에 대한 변별력 특징으로부터 영역구분선을 도출하고, 좌표평면을 영역구분선을 기준으로 분류하는 제 2-2 단계; 영역구분선을 기준으로 분류된 좌표평면상에서 영역구분선에 최근접하는 두 개 이상의 최종후보를 추출하고 그 추출된 대상간의 거리의 제곱의 합의 최소값을 갖는 영역분류구분선을 산출하는 제 2-3 단계; 및 분류된 최종후보들 중에서 분류기준의 임계영역에 위치하는 최종후보들을 영역분류구분선을 근거로 입술움직임 영상인지의 여부를 판별하는 제 2-4 단계; 를 포함하는 것이 바람직하다.
본 발명의 제 2-1 단계는, 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율을 근거로, 좌표평면상에 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임을 표시하는 여타 움직임 영역으로 나누어 레이블링하는 것이 바람직하다.
본 발명의 제 2-2 단계는, 영역구분선을 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율을 근거로 산출하는 것이 바람직하다.
본 발명의 제 2-1 단계는, 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율이 0.8 이상일 때 좌표평면상에 입술움직임을 표시하는 입술움직임 영역으로 구분하고, 대비율이 0.6 이하일 때 여타 움직임을 표시하는 여타 움직임 영역으로 구분하는 것이 바람직하다.
본 발명의 제 2-4 단계는, 제 2-1 단계에서 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율에 따라 레이블링된 좌표평면을 영역분류구분선을 근거로 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임을 표시하는 여타 움직임 영역으로 분류하여 입술움직임 영상인지의 여부를 판별하는 것이 바람직하다.
본 발명의 다른 실시예에 따른 입술움직임 영상 판별 방법은 입술움직임 영상 판별 방법으로서, 촬영수단으로부터 수신되는 사람 얼굴에 대한 움직임 영상 프레임들을 입술움직임에 대한 영상특징들과의 비교 및 입술움직임에 대한 템플릿들과의 비교를 통하여 분석해서 입술움직임에 대한 영상으로 추정되는 최종후보들을 추출하는 제 1 단계; 입술움직임에 대한 영상특징 중에서 최고의 변별력을 갖는 두개 이상의 입술움직임에 대한 변별력 특징을 선정하는 제 2 단계; 추출된 최종후보들 각각을 입술움직임에 대한 변별력 특징을 분류기준으로 좌표평면상에 분류해서 입술움직임 영상인지의 여부를 판단하되, 분류된 최종후보들 중에서 분류기준의 임계영역에 위치하는 최종후보들을 영역분류구분선을 근거로 입술움직임 영상 인지의 여부를 판별하는 제 3 단계;를 포함하는 것이 바람직하다.
본 발명의 제 2 단계는, 제 1 단계의 입술움직임에 대한 영상특징들 각각과 기 설정된 입술움직임에 대한 표준 영상특징과의 대비율을 산출하고, 그 산출된 대비율을 근거로 최고의 변별력을 갖는 두개 이상의 입술움직임에 대한 변별력 특징 을 선정하는 것이 바람직하다.
본 발명의 제 3 단계는, 제 1 단계의 추출된 최종후보들 각각을 입술움직임에 대한 변별력 특징을 분류기준으로 하여 좌표평면상에 표시하는 제 3-1 단계;입술움직임에 대한 변별력 특징으로부터 영역구분선을 도출하고, 좌표평면을 영역구분선을 기준으로 분류하는 제 3-2 단계; 영역구분선을 기준으로 분류된 좌표평면상에서 영역구분선에 최근접하는 두 개 이상의 최종후보를 추출하고 그 추출된 대상간의 거리의 제곱의 합의 최소값을 갖는 영역분류구분선을 산출하는 제 3-3 단계; 및 분류된 최종후보들 중에서 분류기준의 임계영역에 위치하는 최종후보들을 영역분류구분선을 근거로 입술움직임 영상인지의 여부를 판별하는 제 3-4 단계; 를 포함하는 것이 바람직하다.
본 발명의 제 3-1 단계는, 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율을 근거로, 좌표평면상에 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임 을 표시하는 여타 움직임 영역으로 나누어 레이블링하는 것이 바람직하다.
본 발명의 제 3-2 단계는, 영역구분선을 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율을 근거로 산출하는 것이 바람직하다.
본 발명의 제 3-1 단계는, 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율이 0.8 이상일 때 좌표평면상에 입술움직임을 표시하는 입술움직임 영역으로 구분하고, 대비율이 0.6 이하일 때 여타 움직임을 표시하는 여타 움직임 영역으로 구분하는 것이 바람직하다.
본 발명의 제 3-4 단계는, 제 3-1 단계에서 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율에 따라 레이블링된 좌표평면을 영역분류구분선을 근거로 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임을 표시하는 여타 움직임 영역으로 분류하여 입술움직임 영상인지의 여부를 판별하는 것이 바람직하다.
본 발명의 제 1 단계는, 촬영수단으로부터 수신되는 사람 얼굴에 대한 영상 프레임들 각각으로부터 인접 프레임간의 변이를 근거로 움직임 영상 프레임을 추출하는 제 1-1 단계; 제 1-1 단계에서 추출된 움직임 영상 프레임 각각으로부터 움직임 영상에 대한 특징벡터(Feature Vector)를 분리하고, 분리된 특징벡터와 기 설정된 표준화된 입술움직임 영상에 대한 특징벡터를 포함하는 특징벡터 모델을 비교를 근거로 입술움직임에 대한 영상후보들을 선정하는 제 1-2 단계; 제 1-2 단계에서 선정된 입술움직임에 대한 영상후보들 각각과 입술움직임과 근접하고 입술움직임 과정에서 변화가 거의 없는 영상으로부터 추출된 템플릿을 포함하는 템플릿 모델을 근거로 입술움직임 영상에 대한 최종후보들을 추출하는 제 1-3 단계; 를 포함하는 것이 바람직하다.
본 발명의 제 1-3 단계에서 추출된 입술움직임 영상에 대한 최종후보 중에서 입술 움직임에 가장 근접한 입술움직임에 대한 표준영상을 추출하는 제 1-4 단계; 및 표준영상을 근거로 특징벡터 모델 및 템플릿 모델을 학습시켜 업데이트 하는 제 1-5 단계; 를 포함하는 것이 바람직하다.
본 발명의 일실시예에 따른 입술움직임 영상 판별 장치는 입술움직임 영상 판별 장치로서, 촬영수단으로부터 수신되는 사람 얼굴에 대한 움직임 영상 프레임들을 분석하여 입술움직임에 대한 영상으로 추정되는 최종후보들을 추출하는 영상 추출 수단; 및 추출된 최종후보들 각각을 입술움직임에 대한 변별력 특징을 분류기준으로 좌표평면상에 분류해서 입술움직임 영상인지의 여부를 판단하되, 분류된 최종후보들 중에서 분류기준의 임계영역에 위치하는 최종후보들을 영역분류구분선을 근거로 입술움직임 영상 인지의 여부를 판별하는 SVM분류수단;을 포함하는 것을 특징으로 한다.
본 발명의 다른 실시예에 따른 입술움직임 영상 판별 장치는 입술움직임 영상 판별 장치로서, 촬영수단으로부터 수신되는 사람 얼굴에 대한 움직임 영상 프레임들을 입술움직임에 대한 영상특징들과의 비교 및 입술움직임에 대한 템플릿들과의 비교를 통하여 분석해서 입술움직임에 대한 영상으로 추정되는 최종후보들을 추출하는 영상추출수단; 입술움직임에 대한 영상특징 중에서 최고의 변별력을 갖는 두개 이상의 입술움직임에 대한 변별력 특징을 선정하는 입술움직임 변별력 특징선정수단; 추출된 최종후보들 각각을 입술움직임에 대한 변별력 특징을 분류기준으로 좌표평면상에 분류해서 입술움직임 영상인지의 여부를 판단하되, 분류된 최종후보들 중에서 분류기준의 임계영역에 위치하는 최종후보들을 영역분류구분선을 근거로 입술움직임 영상 인지의 여부를 판별하는 SVM분류수단;을 포함하는 것이 바람직하다.
본 발명의 SVM분류수단은, 추출된 최종후보들 각각을 입술움직임에 대한 변 별력 특징을 분류기준으로하여 좌표평면상에 표시하고, 입술움직임에 대한 변별력 특징으로부터 영역구분선을 도출하고, 좌표평면을 영역구분선을 기준으로 분하는 영역분류부; 영역구분선을 기준으로 분류된 좌표평면상에서 영역구분선에 최근접하는 두 개 이상의 최종후보를 추출하고 그 추출된 대상간의 거리의 제곱의 합의 최소값을 갖는 영역분류구분선을 산출하는 영역구분선도출부; 및 분류된 최종후보들 중에서 분류기준의 임계영역에 위치하는 최종후보들을 영역분류구분선을 근거로 입술움직임 영상인지의 여부를 판별하는 입술 움직임 영상분류부; 를 포함하는 것이 바람직하다.
본 발명의 영역분류부는, 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율을 근거로, 좌표평면상에 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임을 표시하는 여타 움직임 영역으로 나누어 레이블링하는 것이 바람직하다.
본 발명의 영역구분선도출부는, 영역구분선을 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율을 근거로 산출하는 것이 바람직하다.
본 발명의 영역분류부는, 추출된 최종후보들 각각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율이 0.8 이상일 때 좌표평면상에 입술움직임을 표시하는 입술움직임 영역으로 구분하고, 대비율이 0.6 이하일때 여타 움직임을 표시하는 여타 움직임 영역으로 구분하는 것이 바람직하다.
본 발명의 입술움직임 영상분류부는, 영역분류부에서 추출된 최종후보들 각 각과 입술움직임에 대한 변별력 특징을 대비하여 산출된 대비율에 따라 레이블링된 좌표평면을 영역분류구분선을 근거로 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임을 표시하는 여타 움직임 영역으로 분류하여 입술움직임 영상인지의 여부를 판별하는 것이 바람직하다.
본 발명의 영상추출수단은, 촬영수단으로부터 수신되는 사람 얼굴에 대한 영상 프레임들 각각으로부터 인접 프레임간의 변이를 근거로 움직임 영상 프레임을 추출하는 움직임 영상프레임 검출부; 움직임 영상프레임 검출부에서 추출된 움직임 영상 프레임 각각으로부터 움직임 영상에 대한 특징벡터(Feature Vector)를 분리하고, 분리된 특징벡터와 기 설정된 표준화된 입술움직임 영상에 대한 특징벡터를 포함하는 특징벡터 모델을 비교를 근거로 입술움직임에 대한 영상후보들을 선정하는 특징벡터 추출부; 특징벡터 추출부에서 선정된 입술움직임에 대한 영상후보들 각각과 입술움직임과 근접하고 입술움직임 과정에서 변화가 거의 없는 영상으로부터 추출된 템플릿을 포함하는 템플릿 모델을 근거로 입술움직임 영상에 대한 최종후보들을 추출하는 템플릿 정합부;를 포함하는 것이 바람직하다.
본 발명의 영상추출수단은, 템플릿 정합부에서 추출된 입술움직 영상에 대한 최종후보 중에서 입술 움직임에 가장 근접한 입술움직임에 대한 표준영상을 추출하는 입술움직임 표준영상추출부를 더 포함하고, 표준영상을 근거로 특징벡터 모델 및 템플릿 모델을 학습시켜 업데이트 하는 입술 움직임 표준 영상 업데이트부; 를 포함하는 것이 바람직하다.
본 발명에 따르면, 본 발명은 레이블링된 off-line 데이터의 패턴분류에서 좋은 성능을 보이는 것으로 알려진 SVM 패턴분류 알고리즘을, 촬영수단을 통하여 수신되는 영상을 대상으로 입술움직임 영상을 분류하는데 적용함으로써, 온라인 상에서 레이블링과 함께 SVM 구분선 도출을 자동화하고, 다양한 움직임 영상을 입술움직임 영역 또는 여타 요소 움직임 영역으로 분류할 수 있는 효과가 있다.
또한, 본 발명에 따르면, 입술움직임 영상에 관한 off-line 데이터를 확보하기 어려운 상황에서, 온라인 상에서 레이블링하고, SVM 패턴분류 초평면(좌표평면)을 구함으로써 움직임 영상의 각각의 특징별로 입술움직임 영상에 대한 변별력을 확인하고, 변별력이 큰 영상특징을 선별하여 SVM 패턴분류 요소로 활용하여, 이를 토대로 온라인 상에서도 레이블링하고 SVM 패턴분류가 가능한 효과가 있다.
또한, 본 발명에 따르면, 실제 음성인식 서비스 환경에서 음성인식 과정에서 외부 음향잡음 여부를 판단하는데 SVM 패턴분류 방법을 활용함으로써 카메라에 대면한 상황에서 음성인식을 하는 경우, 입술움직임 여부를 확인하여, 사람의 발성여부를 쉽게 확인할 수 있는 효과가 있다.
이하, 첨부된 도면을 참조하여 본 발명의 일실시예를 상세히 설명한다. 본 발명의 일실시예에 따른 입술움직임 영상 판별 방법이 적용된 입술움직임 영상 판별 장치를 SVM 패턴분류 알고리즘을 적용하는 바탕으로 설명하도록 한다. 도면에서 동일한 구성요소들에 대해서는 비록 다른 도면에 표시되더라도 가능한 한 동일한 참조번호 및 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명을 설명함에 있 어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명은 생략한다.
도 1은 본 발명에 따른 입술움직임 영상 판별 장치를 도시한 블록도이고, 도 2는 도 1의 입술움직임 영상 판별 장치의 내부 구성을 도시한 블록도이다.
도 1 및 도 2를 참조하면, 본 발명의 일실시예에 따른 입술움직임 영상 판별 방법이 적용된 입술움직임 영상 판별 장치는, 촬영수단으로부터 수신되는 움직임영상프레임(예컨데, 사람 얼굴에 대한 영상)을 분석하여 입술움직임 영상에 대한 최종후보를 추출하는 영상추출수단(101), SVM분류 수단(500), 및 입술 움직임 변별력 특징 선정 수단(600)을 포함한다.
영상추출수단(101)은 촬영수단(160)으로부터 수신되는 움직임 영상프레임을 영상특징 비교 및 템플릿 정합을 통하여 분석해서 입술움직임 영상에 대한 최종후보를 추출하는 역할을 수행하는 것으로, 일반적으로 이러한 기능을 갖는 구성이라면 적용할 수 있다.
여기서, 영상추출수단(101)은 촬영수단(160)으로부터 수신되는 움직임 영상 프레임 상에서 표준 입술움직임 영상 산출 및 특징추출, 움직임 영상특징과의 유사도 추출, 템플릿 영상과의 정합율 등을 분석할 수 있다.
즉, 영상추출수단(101)은 촬영수단(160)를 통하여 수신되는 움직임 영상 중에 입술움직임 영상이 포함되어 있는지를 분석함에 있어서, 수신된 영상 프레임으로부터 얼굴 요소별 움직임 영상(눈, 입, 턱 등의 움직임) 분리, 기 설정된 입술움 직임 영상 특징과의 비교, 템플릿 정합율 산출(입술 움직임에 대한 표준화된 템플릿을 근거로 임술움직임 영상을 판별) 등의 방법으로 입술움직임 영상의 가능성이 상대적으로 높은 최종후보를 추출하게 된다. 프레임 단위로 이와 같은 최종후보 추출 과정은 반복되는데, 입술움직임이 항상 있는 것은 아니므로 최종후보를 대상으로 입술움직임 영상인지의 여부를 판단할 기준이 필요하다. 입술움직임 특징과의 유사도 또는 템플릿 정합율이 상당수준 이상이거나 상당수준 이하인 경우에는 영역분류에 어려움이 없다. 그러나 매 프레임 단위로 추출되는 최종후보 영상의 특징 유사도와 정합율 수준이 다양하므로 이들을 분류할 수 있는 임계값이나 기준이 있어야 한다.
입술움직임 변별력 특징 선정수단(600)은 영상특징 중에서 입술움직임 영상과 여타 움직임 영상을 구분하는 입술움직임 변별력 특징을 선정하는 역할을 수행할 수 있다.
여기서, 입술움직임 변별력 특징 선정수단(600)은 영상 특징 중에서 기 설정된 표준영상 특징(예컨데, 입술움직임 영상을 근거로 표준화한 영상특징)과의 대비율을 산출하고 그 대비율을 근거로 변별력 특징을 선정할 수 있다.
SVM분류수단(500)은 영상추출수단으로부터 수신되는 최종후보를 입술움직임 변별력 특징을 기준으로 좌표평면(초평면) 상에 입술움직임 영역과 여타요소 움직임 영역으로 온라인 상에서 레이블링하고, 최종후보 중에서 입술움직임 영역 및 여타요소 움직임 영역으로 분류되지 않은 최종후보에 대한 입술움직임 영상 여부를 SVM 영역분류구분선을 근거로 판별하는 역할을 수행할 수 있다.
여기서, SVM분류수단(500)은 SVM 패턴분류 기법을 이용한다. SVM((Support Vector Machine) 패턴분류 기법은 최근 관심의 대상이 되고 있으며, 이원분류 모형으로서 오분류율을 최소화함으로써 다양한 분야의 패턴분류 문제에서 관심을 받고 있다. SVM(Support Vector Machine) 분류기법은 주로 영역별로 레이블링이 완료된 Off-line 데이터를 대상으로 영역분류에 최적인 초평면(좌표평면)을 구하여 영역분류의 기준으로 활용하고 있다.
또한, SVM분류수단(500)은 입술움직임 영역과 여타 요소 움직임 영역의 영상에 관한 Off-line데이터를 확보하기 어렵고, 입술움직임 영상이 워낙 다양하기 때문에, 온라인 하에서 수집되는 데이터를 활용하여 가능한 범위에서 레이블링하고, 이를 바탕으로 SVM 영역분류구분선을 자동 산출함으로써 다양한 움직임 영상에 대해 입술움직임 영상여부를 판별해 낼 수 있다.
여기서, 영상추출수단(101)은 촬영수단(160), 움직임 영상 프레임 검출부(100), 영상 노이즈 제거부(110), 영상 개별화부(120), 특징 벡터 추출부(130), 템플릿 정합부(140), 템플릿 정합부(140), 템플릿 모델(200), 특징 벡터 모델(300), 입술 움직임 표준영상 추출부(400), 입술 움직임 표준 영상 업데이트부(410), 입술 움직임 출력부(150)를 포함한다.
움직임 영상 프레임 검출부(100)는 촬영수단으로부터 수신되는 영상프레임을 인접 프레임간의 픽셀단위의 편차를 이용하여 움직임 영상 프레임을 추출하는 역할 을 수행한다.
특징벡터 추출부(130)는 움직임 영상 프레임에 대한 개별화된 영상에 대한 특징벡터(영상특징; Feature Vector)를 추출하는 역할을 수행한다. 여기서, 특징벡터는 영상 특징에 대한 수치화된 변수로서, 영상 특징과 동일하게 설명될 수 있다.
특징벡터 모델(300)은 표준화된 입술움직임 영상에 대한 특징벡터를 저장한다.
여기서, 본 발명은 특징벡터 각각과 기 설정된 특징벡터 모델을 비교하여 유사도가 높은 순으로 입술움직임에 대한 영상후보를 선정하게 된다.
템플릿 모델(200)은 입술움직임과 근접하고 입술움직임 과정에서 변화가 거의 없는 영상으로부터 추출된 템플릿을 저장한다.
템플릿정합부(140)는 템플릿 모델(200)을 근거로 움직임영상프레임에서 선정된 입술움직임에 대한 영상후보의 정합율을 산출하는 역할을 수행한다.
여기서, 본 발명은 입술움직임에 대한 영상후보 중에서 정합율이 높은 입술움직임 영상으로부터 입술움직임 영상에 대한 최종후보를 추출하게 된다.
입술움직임 표준영상 추출부(400)는 촬영수단(160)으로부터 수신되는 움직임영상프레임을 분석하여 추출된 입술움직임 영상에 대한 최종후보 중에서 입술움직임이 확실시 되는 최종후보로부터 입술움직임 표준영상을 추출하는 역할을 수행한다.
입술움직임 표준영상 업데이트부(410)는 입술움직임 표준영상 추출부(400)에서 추출된 표준영상을 근거로 특징벡터 모델을 학습시켜 업데이트 하는 역할을 수 행한다.
도 3은 도 1의 SVM 분류수단의 내부 구성을 도시한 블록도이다.
도 3을 참조하면, 본 발명의 일실시예에 따른 온라인 입술움직임 영상 판별 방법이 적용된 SVM분류 수단(500)은 입술움직임 최종 후보 수신부(510), 영역분류부(520), 입술움직임 영역 선정부(530), 여타 움직임 영역선정부(540), 영역 구분선 도출부(550), 입술 움직임 영상 분류부(560), 입술 움직임 출력부(570)를 포함한다.
입술움직임 최종 후보 수신부(510)는 영상추출수단(101)에서 최종적으로 추출된 입술움직임 영상에 대한 최종후보를 수신하는 역할을 수행한다.
영역분류부(520)는 입술움직임 최종 후보 수신부(510)로 수신된 입술움직임 영상에 대한 최종후보를 입술움직임 변별력 특징을 기준으로 입술움직임 영역과 여타요소 움직임 영역으로 온라인 상에서 레이블링하는 역할을 수행한다.
영역구분선 도출부(550)는 입술움직임 영역 선정부(530) 및 여타 움직임 영역 선정부(540)가 레이블링된 영역내에서 각 영역구분선에 최근접하는 적어도 두 개의 대상을 추출한 레이블을 수신받고 그 레이블 대상간의 거리의 제곱의 합의 최소값을 갖는 SVM 영역분류구분선을 산출하는 역할을 수행한다.
입술움직임 영상 분류부(560)는 입술움직임 영상에 대한 최종후보 중에서 입술움직임 영역 및 여타요소 움직임 영역으로 분류되지 않은 최종후보에 대한 입술움직임 영상 여부를 SVM 영역분류구분선을 근거로 판별하는 역할을 수행한다.
또한, 본 발명은 촬영수단으로 입력되는 대상자에 대한 움직임 영상에서 입술움직임 영상을 도출하고, 그 도출된 입술움직임 영상의 변화 여부를 통해 대상자의 발성여부를 알 수 있다.
따라서, 본 발명은 촬영수단을 통하여 수신되는 움직임 영상을 대상으로 좌표평면상에 온라인 상태로 레이블링하고, 좌표평면 상에에서 분류기준이 되는 SVM 구분선 도출을 자동화하고, 다양한 움직임 영상을 입술움직임 영역 또는 여타 요소 움직임 영역으로 분류할 수 있는 있다.
또한, 본 발명은 입술움직임 영상에 관한 off-line 데이터를 확보하기 어려운 상황에서, 온라인 상태로 좌표평면 상에 레이블링하고, SVM 패턴분류 초평면(좌표평면)을 구함으로써 움직임 영상특징별로 입술움직임 영상에 대한 변별력을 확인하고, 변별력이 큰 영상특징을 선별하여 SVM 패턴분류 요소로 활용하여, 이를 토대로 온라인 상에서도 움직임 영상을 좌표평면상에 레이블링해서 SVM 패턴분류가 가능하다.
또, 본 발명은 실제 음성인식 서비스 환경에서 음성인식 과정에서 외부 음향잡음 여부를 판단하는데 SVM 패턴분류 방법을 활용함으로써 촬영수단에 대면한 상황에서 음성인식을 하는 경우, 입술움직임 여부를 확인하여, 사람의 발성여부를 쉽게 확인할 수 있는 효과가 있다.
도 4 및 도 5는 움직임 영상 특징 각각을 대상으로 입술움직임 영상의 변별력을 분석한 예시도로서, 본 발명에 따른 입력된 영상프레임으로부터 추출한 최종 후보 중에서 입술움직임을 나타낼 때와 여타 움직임 나타낼 때를 비교하여 도출된 것이다. 여기서, 도 4 및 도 5는 각 움직임 영상특징벡터들 중에서 입술움직임 영상의 변별력이 큰 것으로 분석된 가로, 넓이 각각에 대하여, 표준영상특징 대비 어느 정도까지를 입술움직임 영상으로 또는 여타요소 움직임으로 분류해야 하는지를 파악하기 위하여 시연하면서 수집한 로그데이터를 나타낸 것이다.
도 4 및 도 5를 참조하면, 입력된 영상프레임으로부터 추출한 최종후보 중에서 입술움직임을 나타낼 때와 여타 움직임과 대비할 경우의 표준크기 대비(X축, 움직임 프레임수)해 보면서 입술움직임 표준영상 특징과의 대비율(Y축: 표준영상 특징과의 대비율)에 변화를 많이 보이는 특징을 선별하여, 본 발명에서는 입술 움직임 변별력 특징을 두 가지 (가로크기 대비율, 넓이 대비율)를 선택한 경우를 예로 설명한다.
여기서, 표준영상 특징과 일치하는 움직임 영상특징의 대비율을 1로 하되, 움직임 영상 특징 중에서 어느 영상 특징이 입술움직임 영상에 대한 변별력이 높은지와 표준 영상특징과 어느 정도 가까우면 입술움직임으로 할지에 대하여는 실험을 통하여 정할 수 있다. 예를 들어, 입술 움직임 변별력 특징은 가로크기와 넓이의 특징을 선택하였고, 가로크기 대비율과 넓이 대비율을 기준(22, 32)인 0.8을 기준으로 그 이상(23, 33)이면 입술움직임 영상, 0.6 이하(24, 34)이면 여타 요소 움직임으로 구분 할 수 있다.
도 6은 본 발명에 따른 SVM 패턴분류에 기반한 영역분류 개념도이다. 여기서, 도 6은 다양한 움직임 영상특징의 표준영상 특징에 대한 대비율 좌표평면으로서, 입술움직임 영역구분선, 여타움직임 영역구분선, 그리고 영역분류구분선이 형상화되어 있다.
도 6을 참조하면, 입술움직임 영상의 최종후보로 선별된 움직임 영상을 대상으로, 입술움직임 영역 또는 여타 요소 움직임 영역으로 분류하게 된다. X축은 각 움직임 영상의 가로 크기에 대한 입술움직임 표준 영상과의 가로크기의 대비율, Y축은 넓이의 대비율이다. 입술움직임 영역 구분선 이상의 특징대비율을 갖는 움직임 영상들과 여타 요소 영역 구분선 이하의 특징대비율을 갖는 영상들은 각각의 영역으로 레이블링 된다. 영역레이블링이 되지 않은 중간지역의 움직임 들은 SVM 영역분류 구분선을 기준으로 각각 입술움직임 영역 또는 여타 요소 영역으로 분류된다.
즉, SVM 초평면식(좌표평면식)을 구하는 절차는 다음과 같다. 첫째, SVM 패턴분류를 위한 2차원 (X,Y) 좌표평면을 만들고, X축에는 입술움직임 표준영상의 가로특징과의 가로특징 대비율, Y축에는 표준영상과의 넓이특징 대비율로 설정한다. 둘째, 입술움직임 영역 및 여타요소 영역구분선을 도출한다. 움직임 특징값들이 X, Y 좌표평면의 1/4분면을 원점으로부터 2등분하는 선을 중심으로 분포하는 점을 감안하여, 입술움직임 영역구분선은 f1(x,y): x + y + a = 0으로 놓고, 여타요소 움직임 영역구분선은 f2(x,y): x + y + b = 0 로 놓고 각각의 절편을 구한다. 입술움직임 영역구분선은 점 (x=0.8, y=0.8)을 지나고, 여타요소 영역구분선은 점 (x=0.6, y=0.6)을 지나므로 영역구분선은 각각 다음과 같이 설정된다.
f1(x,y): x + y - 1.6 = 0 (1)
f2(x,y): x + y - 1.2 = 0 (2)
따라서, 표준영상특징에 대한 각 움직임 영상특징 대비율(xi, yj)을 위 식에 대입한 결과값이 xi + yj - 1.6 > 0이면 입술움직임 영역으로 분류하고, xi + yj - 1.2 < 0이면 여타요소 움직임 영역으로 분류한다. 셋째, 입술움직임 또는 여타요소 움직임으로 분류되지 않는 중간영역의 움직임 영상을 어느 영역으로 분류할 지를 정하기 위하여, SVM 영역분류구분선을 구하게 된다.
f0(x,y): x + y + c = 0 (3)
이를 위해 입술움직임 영역내의 움직임으로서 입술영역구분선과 최근접 세 점을 찾고, 여타요소 영역내의 움직임으로서 여타요소 영역구분선과 최근접 세 점을 찾는다. 이들 여섯 개의 각 점과의 거리의 제곱의 합이 최소가 되는 선을 구하여 절편 c를 구한다.
영역분류구분선은 자동으로 계산되고 입술움직임 최종후보 영상에 대한 영역분류의 기준이 된다. 이제 모든 움직임 영상에 대해 표준영상특징 대비율을 식 (3)에 적용하여, f0(xi,yj)>0이면 입술움직임 영상, 이외에는 여타요소 움직임 영상으로 분류된다.
하기 산출식은 본 발명에 따른 영상 데이터에 기반한 영역분류선 산출식을 나타낸다. 산출식을 참조하면, 본 발명에 따른 SVM 영역분류 구분선은 두개의 영역으로부터 각 구분선에 최근접 3개씩을 선택하여(총 6개), 이들과의 거리의 제곱의 합을 최소로 하는 SVM 영역분류 구분선을 설정하게 된다.
Figure 112007091072617-pat00001
이하, 도면을 참조하여 본 발명에 따른 온라인 입술움직임 영상 판별 방법을 설명한다.
도 7은 본 발명에 따른 온라인 입술움직임 영상 판별 방법을 도시한 순서도이다. 여기서, 도 7은 촬영수단에 대면하여 사람이 입술을 움직여 발성하는 경우에 영상프레임 수신부터 입술움직임 영상 판별까지의 주요 절차와 각 절차에서 생성되는 결과물을 부가하여 기술하였다.
도 7을 참조하면, 온라인 입술움직임 영상 판별 방법은 우선, 촬영수단(a)를 통하여 영상프레임(b)이 계속적으로 수신된다. 오른쪽에 수신된 영상프레임 들(1)이 형상화 되어 있다. 움직임 영상 프레임 검출부(100)는 움직임이 있는 영상을 추출하기 위하여 인접 프레임간의 픽셀단위의 편차로 구성되는 별도의 움직임 영상 프레임을 추출한다(c). 이 추출된 영상 프레임은 도번 2에 형상화 하였다.
다음, 특징벡터 추출부(130)는 움직임 영상 프레임에 대한 개별화된 영상에 대한 특징벡터(Feature Vector), 즉, 영상 특징에 대한 벡터를 추출하고, 특징벡터 각각과 표준화된 입술움직임 영상에 대한 특징벡터를 포함하는 특징벡터 모델(300)을 비교하여 유사도가 높은 순으로 입술움직임에 대한 영상후보를 선정한다(c~f). 즉, 영상 노이즈 제거부(110)는 움직임 영상 프레임(c)에 구조요소(9)를 적용함으로써 구조요소 보다 작은 미세 영상은 제거한다(d, 3). 여기에는 얼굴요소의 움직임들이 있게 되는데, 영상 개별화부(120)는 이들을 개별화(e, 4)한다. 특징 벡터 추출부(130)는 개별화된 영상 각각을 대상으로 특징벡터(Feature Vector)를 추출한다(f, 10). 이들 특징벡터 각각과 미리 준비된 입술움직임 특징벡터 모델(j)을 비교하여 유사도가 높은 순으로 움직임 영상(5)을 입술움직임 영상후보로 선정한다.
여기서, 입술움직임에 대한 영상후보는 세 개까지 선정할 수 있는데, 그 이유는 입술움직임 자체가 변동성이 많기 때문이다.
이어, 템플릿 정합부(140)는 입술움직임에 대한 영상후보 중에서 입술움직임과 근접하고 입술움직임 과정에서 변화가 거의 없는 영상으로부터 추출된 템플릿 모델(200)을 근거로 움직임영상프레임에서 선정된 입술움직임에 대한 영상후보의 정합율을 산출하고, 그 산출된 정합율이 높은 입술움직임 영상으로부터 입술움직임 영상에 대한 최종후보를 추출한다(g). 즉, 템플릿 정합부(140)는 입술움직임 영상후보를 대상으로 미리 준비한 템플릿모델(k, 11)과의 정합율을 구하여, 가장 높은 정합율을 나타내는 움직임을 입술움직임 최종후보(6)로 정한다.
여기서, 템플릿은 입술움직임과 근접한 상단에 위치하면서 입술움직임 과정에서 변화가 거의 없는 코의 일부 영상(11)으로 할 수 있다.
한편, 최종후보를 선정하는 과정에서 높은 수준의 입술움직임 특징벡터의 유사도와 템플릿 매칭 정합율을 보임으로써(l), 입술 움직임 표준영상 추출부(400)는 입술움직임으로 확실시되는 움직임만(7)을 대상으로 입술움직임 표준영상(m)으로 하여 이를 기준으로 입술 움직임 표준 영상 업데이트부(410)는 특징벡터 모델(j)과 템플릿 모델(k)을 학습시켜 업데이트 할 수 있다.
여기서, 상술한 바와 같이 영상특징 중에서 입술 움직임 변별력 특징 선정 수단(600)은 입술움직임 영상과 여타 움직임 영상을 구분하는 적어도 두 개의 입술움직임 변별력 특징을 선정할 수 있다.
이후, 입술영상에 대한 최종후보(6)가 입술움직임인지의 여부는 SVM 패턴분류과정(h, 12)을 거쳐서 결정한다(I, 8).
도 8은 본 발명에 따른 SVM 패턴분류과정을 도시한 순서도이다. 이하 설명에 있어서, 설명에 있어서 도 1 내지 도 6과 동일한 참조 부호는 동일한 기능을 수행하는 것을 지칭한다.
도 8은 입술움직임에 대한 최종후보 영상에 대한 SVM 영역분류과정을 도시한 것으로, 이하, 본 발명에 따른 입술움직임에 대한 최종후보 영상에 대한 SVM 영역분류과정을 설명하기 위하여, xi는 최종후보 영상의 가로특징에 대한 표준영상의 가로특징 대비율, yj는 최종후보 영상의 넓이특징에 대한 표준영상의 넓이특징 대비율이고, f0(x,y)=x+y+c는 영역분류구분선이고, f1(x,y)=x+y-1.6 은 입술영역구분선이고, f2(x,y)=x+y-1.2는 여타영역구분선, SV(x1, y1),...은 특징벡터로 가정하고 설명하도록 한다.
도 8을 참조하면 우선, 영역분류부(520)는 상술한 바와 같이 선정된 적어도 두개의 입술움직임 변별력 특징을 기준으로, 입술움직임 영상의 최종후보의 입술움직임 표준 영상에 대한 대비율을 XY 좌표축에 설정하고, 영역구분선을 도출하여, 입술움직임 영역 또는 여타 요소 움직임 영역으로 레이블링한다(S20). 즉, 입술움직임 최종후보 수신부(510)로 수신되는 입술움직임 영상에 대한 최종후보 중 입술움직임 변별력 특징에 유사한 최종후보를 입술 움직임 영역(f1(xi,yj)>0)으로 분류하고, 입술움직임 영상에 대한 최종후보 중 입술움직임 변별력 특징과 차이가 나는 최종후보를 여타 움직임 영역(f2(xi,yj)<0)으로 분류한다.
이때, 입술움직임 영역 선정부(530) 및 여타 움직임 영역선정부(540)는 각각 레이블링된 영역내에서 각각 영역구분선에 최근접하는 3개씩을 추출(S50, S60)하고, 영역 구분선 도출부(550)는 추출된 6개의 점과 거리의 제곱의 합의 최소값을 갖는 SVM 영역분류구분선을 도출한다(S70). 즉, 영역분류과정에서 두개의 영역으로 분류되면, 각 영역내에서 영역분류구분선에 최근접 3점씩을 선별하여 SVM 영역구분선을 도출한다.
이어, 입술 움직임 영상 분류부(560)는 레이블링되지 않은 입술움직임 최종후보를 영역분류구분선에 의해 영역을 분류한다(S80). 즉, 단계 S20에서에서 분류되지 않은 움직임 영상은 SVM 영역구분선에 적용함으로써, 입술움직임 영상 여부가 결정되고, 입술움직임 영상으로 판별되면, 이후의 음성인식 과정에서 음향잡음 여부에 대한 중요한 정보로 활용된다(S90).
따라서, 본 발명은 촬영수단을 통하여 수신되는 움직임 영상을 대상으로 좌표평면상에 온라인 상태로 레이블링하고, 좌표평면 상에서 분류기준이 되는 SVM 분류구분선 도출을 자동화하고, 다양한 움직임 영상을 입술움직임 영역 또는 여타 요소 움직임 영역으로 분류할 수 있는 있다.
또한, 본 발명은 입술움직임 영상에 관한 off-line 데이터를 확보하기 어려운 상황에서, 온라인 상태로 좌표평면 상에 레이블링하고, SVM 패턴분류 초평면(좌표평면)을 구함으로써 움직임 영상특징별로 입술움직임 영상에 대한 변별력을 확인하고, 변별력이 큰 영상특징을 선별하여 SVM 패턴분류 요소로 활용하여, 이를 토대로 온라인 상에서도 움직임 영상을 좌표평면상에 레이블링해서 SVM 패턴분류가 가능하다.
또, 본 발명은 실제 음성인식 서비스 환경에서 음성인식 과정에서 외부 음향잡음 여부를 판단하는데 SVM 패턴분류 방법을 활용함으로써 촬영수단에 대면한 상황에서 음성인식을 하는 경우, 입술움직임 여부를 확인하여, 사람의 발성여부를 쉽게 확인할 수 있는 효과가 있다.
이상에서 살펴본 바와 같은 본 발명의 실시예에 대한 기술사상을 첨부도면과 함께 서술하였지만, 이는 본 발명의 가장 양호한 실시예를 예시적으로 설명한 것이지 본 발명을 한정하는 것은 아니다. 또한, 이 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 기술사상을 이탈하지 않는 범위 내에서 다양한 변형 및 모방이 가능함은 명백한 사실이다.
도 1은 본 발명에 따른 입술움직임 영상 판별 장치를 도시한 블록도.
도 2는 도 1의 입술움직임 영상 판별 장치 내부 구성을 도시한 블록도.
도 3은 도 1의 SVM분류수단의 내부 구성을 도시한 블록도.
도 4 및 도 5는 움직임 영상 특징 각각을 대상으로 입술움직임 영상의 변별력을 분석한 예시도.
도 6은 본 발명에 따른 SVM 패턴분류에 기반한 영역분류 개념도.
도 7은 본 발명에 따른 입술움직임 영상 판별 방법을 도시한 순서도.
도 8은 본 발명에 따른 SVM 패턴분류과정을 도시한 순서도.
* 도면의 주요부분에 대한 부호의 설명 *
101 : 영상추출수단 160 : 영상 카메라 200 : 특징벡터 모델 300 : 템플릿 모델
400 : 입술음직임 표준영상 추출부 500 : SVM분류수단
600 : 입술 움직임 변별력 특징선정수단

Claims (13)

  1. 입술움직임 영상 판별 방법으로서,
    촬영수단으로부터 수신되는 사람 얼굴에 대한 움직임 영상 프레임들을 분석하여 입술움직임에 대한 영상으로 추정되는 최종후보들을 추출하는 제 1 단계; 및
    상기 추출된 최종후보들 각각을 입술움직임과 여타움직임으로 구분하기 위한 입술움직임에 대한 변별력 있는 특징을 기준으로 SVM분류기법에 따른 좌표평면 상에 영역별로 분류해서 상기 좌표평면 상에 위치하는 영역에 따라 입술움직임 영상인지의 여부를 판단하되, 상기 분류된 최종후보들 중에서 상기 입술움직임에 대한 변별력 있는 특징으로는 구분하기 어려운 영역에 위치하는 최종후보들을 이원분류하기 위한 영역분류구분선을 근거로 입술움직임 영상 인지의 여부를 판별하는 제 2 단계;를 포함하는 것을 특징으로 하는 입술움직임 영상 판별 방법.
  2. 입술움직임 영상 판별 방법으로서,
    촬영수단으로부터 수신되는 사람 얼굴에 대한 움직임 영상 프레임들을 입술움직임에 대한 영상특징들과의 비교 및 입술움직임에 대한 템플릿들과의 비교를 통하여 분석해서 입술움직임에 대한 영상으로 추정되는 최종후보들을 추출하는 제 1 단계;
    상기 입술움직임에 대한 영상특징 중에서 최고의 변별력을 갖는 두개 이상의 입술움직임에 대한 변별력 특징을 선정하여 그 선정된 영상특징들을 입술움직임과 여타움직임으로 구분하기 위한 입술움직임에 대한 변별력 있는 특징들로 선정하는 제 2 단계;
    상기 추출된 최종후보들 각각을 상기 입술움직임에 대한 변별력 있는 특징을
    기준으로 SVM분류기법에 따른 좌표평면 상에 영역별로 분류해서 상기 좌표평면 상에 위치하는 영역에 따라 입술움직임 영상인지의 여부를 판단하되, 상기 분류된 최종후보들 중에서 상기 입술움직임에 대한 변별력 있는 특징으로는 구분하기 어려운 영역에 위치하는 최종후보들을 이원분류하기 위한 영역분류구분선을 근거로 입술움직임 영상 인지의 여부를 판별하는 제 3 단계;를 포함하는 것을 특징으로 하는 입술움직임 영상 판별 방법.
  3. 제 2 항에 있어서,
    상기 제 2 단계는,
    상기 제 1 단계에서의 입술움직임에 대한 최종후보로 추정된 영상특징들 각각과 기 설정된 입술움직임에 대한 표준 영상특징과의 일치하는 정도에 따라 대비율을 산출하고, 그 산출된 대비율을 근거로 최고의 변별력을 갖는 두개 이상의 입술움직임에 대한 변별력 특징을 선정하는 것을 특징으로 하는 입술움직임 영상 판별 방법.
  4. 제 2 항에 있어서,
    상기 제 3 단계는,
    상기 제 1 단계의 추출된 최종후보들 각각을 상기 입술움직임에 대한 변별력 있는 특징을 기준으로 분류기준으로 하여 좌표평면 상에 표시하는 제 3-1 단계;
    상기 입술움직임에 대한 변별력 특징으로부터 상기 좌표평면의 영역을 구분하기 위한 영역구분선을 도출하고, 상기 좌표평면을 상기 영역구분선을 기준으로 영역별로 분류하는 제 3-2 단계;
    상기 영역구분선을 기준으로 분류된 좌표평면상에서 상기 영역구분선에 최근접하는 두 개 이상의 최종후보들을 두 개의 영역에서 각각 추출하고 그 추출된 최종후보간의 거리의 제곱의 합의 최소값을 갖는 이원분류하기 위한 영역분류구분선을 산출하는 제 3-3 단계; 및
    상기 분류된 최종후보들 중에서 상기 좌표평면상에서 상기 입술움직임에 대한 변별력 있는 특징으로는 구분하기 어려운 영역에 위치하는 최종후보들을 상기 영역분류구분선을 근거로 입술움직임 영상인지의 여부를 판별하는 제 3-4 단계; 를 포함하는 것을 특징으로 하는 입술움직임 영상 판별 방법.
  5. 제 4 항에 있어서,
    상기 제 3-1 단계는,
    상기 추출된 입술움직임에 대한 최종후보들 각각과 입술움직임 표준영상간의 변별력 있는 특징을 대비시켜 일치하는 정도에 따라 산출된 대비율을 근거로, 좌표평면 상에 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임을 표시하는 여타 움직임 영역으로 나누어 레이블링하는 것을 특징으로 하는 입술움직임 영상 판별 방법.
  6. 제 4 항에 있어서,
    상기 제 3-2 단계는,
    상기 영역구분선을 상기 추출된 최종후보들 각각과 입술움직임에 대한 변별력 있는 특징을 대비하여 산출된 대비율을 근거로 산출하는 것을 특징으로 하는 입술움직임 영상 판별 방법.
  7. 제 4 항에 있어서,
    상기 제 3-4 단계는,
    상기 제 3-1 단계에서 추출된 최종후보들 각각과 입술움직임에 대한 변별력 있는 특징을 대비하여 일치하는 정도에 따라 산출된 대비율에 따라 레이블링된 좌표평면을 상기 영역분류구분선을 근거로 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임을 표시하는 여타 움직임 영역으로 분류하여 입술움직임 영상인지의 여부를 판별하는 것을 특징으로 하는 입술움직임 영상 판별 방법.
  8. 제 1 항 또는 제 2 항에 있어서,
    상기 제 1 단계는,
    촬영수단으로부터 수신되는 사람 얼굴에 대한 영상 프레임들 각각으로부터 인접 프레임간의 변이를 근거로 움직임 영상 프레임을 추출하는 제 1-1 단계;
    상기 제 1-1 단계에서 추출된 움직임 영상들을 각각 분리하여 라벨링하고, 상기 분리된 움직임의 특징벡터(Feature Vector)와 기설정된 입술움직임 표준영상의 특징벡터를 서로 비교하여 유사도가 높은 순으로 입술움직임에 대한 영상후보들을 선정하는 제 1-2 단계; 및
    상기 제 1-2 단계에서 선정된 입술움직임에 대한 영상후보들 중에서 입술움직임과 근접하고 입술움직임 과정에서 상대적으로 변화가 없는 영상으로부터 추출된 템플릿을 포함하는 템플릿 모델을 근거로 입술움직임 영상에 대한 최종후보들을 추출하는 제 1-3 단계; 를 포함하는 것을 특징으로 하는 입술움직임 영상 판별 방법.
  9. 제 8 항에 있어서,
    상기 제 1-3 단계에서 추출된 상기 입술움직 영상에 대한 최종후보 중에서 입술 움직임에 가장 근접한 입술움직임에 대한 표준영상을 추출하는 제 1-4 단계; 및
    상기 표준영상을 근거로 특징벡터 모델 및 템플릿 모델을 학습시켜 업데이트 하는 제 1-5 단계; 를 더 포함하는 것을 특징으로 하는 입술움직임 영상 판별 방법.
  10. 입술움직임 영상 판별 장치로서,
    촬영수단으로부터 수신되는 사람 얼굴에 대한 움직임 영상 프레임들을 입술움직임에 대한 영상특징들과의 비교 및 입술움직임에 대한 템플릿들과의 비교를 통하여 분석해서 입술움직임에 대한 영상으로 추정되는 최종후보들을 추출하는 영상추출수단;
    상기 입술움직임에 대한 영상특징 중에서 최고의 변별력을 갖는 두개 이상의 입술움직임에 대한 변별력 특징을 선정하여 그 선정된 영상특징들을 입술움직임과 여타움직임으로 구분하기 위한 입술움직임에 대한 변별력 있는 특징들로 선정하는 입술움직임 변별력 특징선정수단;
    상기 추출된 최종후보들 각각을 입술움직임에 대한 변별력 있는 특징을 기준으로 SVM분류기법에 따른 좌표평면 상에 영역별로 분류해서 상기 좌표평면 상에 위치하는 영역에 따라 입술움직임 영상인지의 여부를 판단하되, 상기 분류된 최종후보들 중에서 상기 입술움직임에 대한 변별력 있는 특징으로는 구분하기 어려운 영역에 위치하는 최종후보들을 이원분류하기 위한 영역분류구분선을 근거로 입술움직임 영상 인지의 여부를 판별하는 SVM분류수단;을 포함하는 것을 특징으로 하는 입술움직임 영상 판별 장치.
  11. 제 10 항에 있어서,
    상기 SVM분류수단은,
    상기 추출된 최종후보들 각각을 상기 입술움직임에 대한 변별력 있는 특징을 기준으로 분류기준으로 하여 좌표평면 상에 표시하고, 상기 입술움직임에 대한 변별력 있는 특징으로부터 상기 좌표평면의 영역을 구분하기 위한 영역구분선을 도출하고, 상기 좌표평면을 상기 영역구분선을 기준으로 영역별로 분류하는 영역분류부;
    상기 영역구분선을 기준으로 분류된 좌표평면상에서 상기 영역구분선에 최근접하는 두 개 이상의 최종후보들을 두 개의 영역에서 각각 추출하고 그 추출된 최종후보간의 거리의 제곱의 합의 최소값을 갖는 이원분류하기 위한 영역분류구분선을 산출하는 영역구분선도출부; 및
    상기 분류된 최종후보들 중에서 상기 좌표평면상에서 상기 입술움직임에 대한 변별력 있는 특징으로는 구분하기 어려운 영역에 위치하는 최종후보들을 상기 영역분류구분선을 근거로 입술움직임 영상인지의 여부를 판별하는 입술 움직임 영상분류부; 를 포함하는 것을 특징으로 하는 입술움직임 영상 판별 장치.
  12. 제 11 항에 있어서,
    상기 영역분류부는,
    상기 추출된 입술움직임에 대한 최종후보들 각각과 입술움직임 표준영상간의 변별력 있는 특징을 대비시켜 일치하는 정도에 따라 산출된 대비율을 근거로, 좌표평면 상에 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임을 표시하는 여타 움직임 영역으로 나누어 레이블링하는 것을 특징으로 하는 입술움직임 영상 판별 장치.
  13. 제 11 항에 있어서,
    상기 영역구분선도출부는,
    상기 영역구분선을 상기 추출된 최종후보들 각각과 입술움직임에 대한 변별력 있는 특징을 대비하여 산출된 대비율을 근거로 산출하고,
    상기 입술움직임 영상분류부는,
    상기 영역분류부에서 추출된 최종후보들 각각과 입술움직임에 대한 변별력 있는 특징을 대비하여 일치하는 정도에 따라 산출된 대비율에 따라 레이블링된 초평면을 상기 영역분류구분선을 근거로 입술움직임을 표시하는 입술움직임 영역 및 여타 움직임을 표시하는 여타 움직임 영역으로 분류하여 입술움직임 영상인지의 여부를 판별하는 것을 특징으로 하는 입술움직임 영상 판별 장치.
KR1020070133391A 2007-12-18 2007-12-18 입술움직임 영상 판별 방법 및 그 장치 KR100924795B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070133391A KR100924795B1 (ko) 2007-12-18 2007-12-18 입술움직임 영상 판별 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070133391A KR100924795B1 (ko) 2007-12-18 2007-12-18 입술움직임 영상 판별 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20090065866A KR20090065866A (ko) 2009-06-23
KR100924795B1 true KR100924795B1 (ko) 2009-11-03

Family

ID=40994064

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070133391A KR100924795B1 (ko) 2007-12-18 2007-12-18 입술움직임 영상 판별 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR100924795B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976390B (zh) * 2016-05-25 2018-09-18 南京信息职业技术学院 一种结合支持向量机阈值统计与斑点检测的钢管计数方法
KR102314990B1 (ko) * 2019-08-29 2021-10-21 주식회사 카이 머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040088898A (ko) * 2003-04-14 2004-10-20 주식회사 윈포넷 얼굴 검출을 위한 얼굴특징 추출방법
KR20050019599A (ko) * 2003-08-20 2005-03-03 한국과학기술원 음성 인식을 위한 입술영역 검출 및 이를 이용한입술모양정보 획득방법
KR20070061207A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040088898A (ko) * 2003-04-14 2004-10-20 주식회사 윈포넷 얼굴 검출을 위한 얼굴특징 추출방법
KR20050019599A (ko) * 2003-08-20 2005-03-03 한국과학기술원 음성 인식을 위한 입술영역 검출 및 이를 이용한입술모양정보 획득방법
KR20070061207A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템

Also Published As

Publication number Publication date
KR20090065866A (ko) 2009-06-23

Similar Documents

Publication Publication Date Title
Jiang et al. Multi-layered gesture recognition with Kinect.
Lin et al. Human activity recognition for video surveillance
US10140508B2 (en) Method and apparatus for annotating a video stream comprising a sequence of frames
JP7146247B2 (ja) 動作認識方法及び装置
US8472668B2 (en) Image analyzing apparatus, image analyzing method, and computer readable medium
Bouchard et al. Semantic segmentation of motion capture using laban movement analysis
CN106960181B (zh) 一种基于rgbd数据的行人属性识别方法
JP2004054960A (ja) 映像視覚情報を結合してリアルタイムで複数の顔を検出して追跡する顔検出・追跡システム及びその方法
CN110232331B (zh) 一种在线人脸聚类的方法及系统
CN110796101A (zh) 一种嵌入式平台的人脸识别方法及系统
Kalbande et al. Lip reading using neural networks
KR20180009180A (ko) 모바일 환경 객체 신뢰도 평가와 학습을 통한 융합 객체 추적 시스템 및 방법
Marcos-Ramiro et al. Let your body speak: Communicative cue extraction on natural interaction using RGBD data
Jachimski et al. A comparative study of English viseme recognition methods and algorithms
Bhuyan et al. Trajectory guided recognition of hand gestures having only global motions
Alksasbeh et al. Smart hand gestures recognition using K-NN based algorithm for video annotation purposes
Hassan et al. User-dependent sign language recognition using motion detection
JP2007213528A (ja) 行動認識システム
KR100924795B1 (ko) 입술움직임 영상 판별 방법 및 그 장치
KR20090050199A (ko) 광류와 은닉 마르코프 모델을 이용한 실시간 얼굴 표정인식
CN104899544A (zh) 图像处理装置和图像处理方法
Fragkiadakis et al. Towards a User-Friendly Tool for Automated Sign Annotation: Identification and Annotation of Time Slots, Number of Hands, and Handshape.
Sarawagi et al. Automatic facial expression recognition for image sequences
Aitpayev et al. Semi-automatic annotation tool for sign languages
Elmezain et al. Improving hand gesture recognition using 3D combined features

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121011

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130923

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140926

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee