KR20120091625A

KR20120091625A - 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법

Info

Publication number: KR20120091625A
Application number: KR1020110011507A
Authority: KR
Inventors: 윤인찬; 최귀원; 서준교; 권익찬; 김광명; 추준욱; 최재봉
Original assignee: 한국과학기술연구원
Priority date: 2011-02-09
Filing date: 2011-02-09
Publication date: 2012-08-20
Also published as: KR101187600B1

Abstract

본 발명은 스테레오 영상으로부터 추출된 입술 특징점을 이용한 음성 인식 장치 및 음성 인식 방법에 관한 것이다. 이를 위해 본 발명의 일실시예에 따른 음성 인식 장치는 스테레오 영상 획득부와, 상기 스테레오 영상 획득부로부터 화자의 스테레오 영상을 수신하고, 수신된 스테레오 영상에서 화자의 입술 영역을 추출하고, 추출된 입술 영여그이 특징점의 3차원 좌표값에 대응하는 음소를 분류함으로써 화자의 음성을 인식하는 영상 처리부를 포함한다. 영상 처리부는 수신된 스테레오 영상에서 화자의 입술 영역을 추출하는 입술 영역 추출부와, 입술 영역 추출부에서 추출된 입술 영역의 윤곽을 추출하는 입술 윤곽 추출부와, 입술 윤곽 추출부에서 추출된 입술 영역의 윤곽에서 특징점을 추출하는 특징점 추출부를 포함할 수 있다.

Description

스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법{Speech Recognition Device and Speech Recognition Method using 3D Real-time Lip Feature Point based on Stereo Camera}

본 발명은 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법에 관한 것이다.

종래의 음성 인식 기술은 대부분 마이크로 입력되는 음성 신호에 대하여 음절 및 단어를 인식하고, 그 결과를 주변 기기 또는 응용 프로그램의 동작을 제어하는 용도로 사용하였다. 그러나, 이러한 방법은 주변 잡음에 민감하며 낮은 인식률로 인해 적용 분야가 한정되어 왔다.

반면에 인간의 음성 인식 메커니즘은 청각을 통한 음성 인식 뿐만 아니라 시각을 통한 음성 인식을 동시에 수행하고 이를 혼합함으로써 최종적인 음성 인식을 수행한다. 이를 모방한 다른 종류의 기술로서 영상 기반의 음성 인식 연구가 있다. 일반인 또는 음성 장애 환자라 할지라도 동일한 음소와 음절을 발음할 때의 입술 모양이 상당 부분 동일함을 확인할 수 있다. 따라서, 카메라로 획득된 안면부 영상에 대하여 경계선 검출 또는 컬러 정보를 이용하여 입술 영역을 선택하고 특징점을 추출함으로써 그에 해당하는 음소 및 음절을 판단한다.

그러나, 이러한 방법은 모노 카메라를 이용하여 서로 다른 발음을 동일한 입술 모양으로 인식하는 경우가 빈번하다. 또한, 사용자의 움직임으로 입술 영역이 회전되거나 기존 입술 모양과 상이한 영상에 대해서는 적응이 불가능한 경우가 대부분이다.

본 발명은 상기와 같은 문제점을 해결하기 위한 것으로, 스테레오 카메라 기반으로 3차원 실시간 입술 특징점을 추출하여 보다 정확한 음성 인식을 가능하게 하는 음성 인식 장치 및 음성 인식 방법을 제시하고자 한다.

이를 위해 본 발명의 일실시예에 따른 음성 인식 장치는 스테레오 영상 획득부와, 상기 스테레오 영상 획득부로부터 화자의 스테레오 영상을 수신하고, 상기 수신된 스테레오 영상에서 화자의 입술 영역을 추출하고, 상기 추출된 입술 영역의 특징점의 3차원 좌표값에 대응하는 음소를 분류함으로써 화자의 음성을 인식하는 영상 처리부를 포함한다.

상기 영상 처리부는 상기 수신된 스테레오 영상에서 화자의 입술 영역을 추출하는 입술 영역 추출부와, 상기 입술 영역 추불부에서 추출된 입술 영역의 윤곽을 추출하는 입술 윤곽 추출부와, 상기 입술 윤곽 추출부에서 추출된 입술 영역의 윤곽에서 특징점을 추출하는 특징점 추출부를 포함할 수 있다.

이때, 상기 입술 영역 추출부는 HSV 색공간법을 이용하여 화자의 입술 영역을 검출할 수 있으며, 상기 입술 윤곽 추출부는 캐니(Canny) 경계선 검출 알고리즘을 이용하여 입술 영역의 윤곽을 추출할 수 있으며, 상기 특징점 추출부는 비터비(Viterbi) 알고리즘을 이용하여 특징점들이 최소 거리 간격으로 연결되도록 특징점을 추출할 수 있다.

또한, 상기 영상 처리부는 능동 표현 모델(Active Appearance Model)을 기반으로 상기 입술 영역 추출부와, 상기 입술 윤곽 추출부와, 상기 특징점 추출부를 이용하여 학습 데이터를 구축하고, 상기 구축된 학습 데이터를 이용하여 실시간으로 상기 수신된 스테레오 영상으로부터 특징점을 추출하는 능동 표현 모델부를 더 포함할 수 있다.

또한, 상기 영상 처리부는 삼각법을 이용하여 상기 능동 표현 모델부가 추출한 상기 수신된 스테레오 영상의 특징점의 3차원 좌표값을 계산하는 3차원 좌표 계산부를 더 포함할 수 있다.

또한, 상기 영상 처리부는 가우시안 혼합 모델(Gaussian Mixture Model)을 이용하여 상기 3차원 좌표 계산부가 계산한 상기 수신된 스테레오 영상의 특징점의 3차원 좌표값과 대응하는 음소를 분류하는 가우시안 혼합 모델부를 더 포함할 수 있다.

또한, 상기 영상 처리부는 은닉 마코프 모델(Hidden Markov Model)을 이용하여 상기 가우시안 혼합 모델부가 분류한 음소로부터 화자의 단어 또는 문장을 인식하는 은닉 마코프 모델부를 더 포함할 수 있다.

또한, 본 발명의 일실시예에 따른 음성 인식 장치는 상기 은닉 마코프 모델이 인식한 화자의 단어 또는 문장을 TTS(Text to Speech) 시스템을 이용하여 음성으로 출력하는 음성 출력부를 더 포함할 수 있다.

본 발명의 일실시예에 따른 음성 인식 방법은 스테레오 영상 획득부를 이용하여 화자의 스테레오 영상을 수신하는 단계와, 상기 수신된 스테레오 영상에서 화자의 입술 영역을 추출하는 단계와, 상기 추출된 화자의 입술 영역에서 윤곽을 추출하는 단계와, 상기 추출된 윤곽에서 특징점을 추출하는 단계와, 상기 추출된 특징점을 이용하여 능동 표현 모델(Active Appearance Model)을 학습시키는 단계와, 상기 수신된 스테레오 영상을 능동 표현 모델에 입력하여 실시간으로 특징점을 추출하는 단계와, 상기 능동 표현 모델로부터 실시간으로 추출되는 특징점의 3차원 좌표값을 계산하는 단계와, 상기 계산된 3차원 좌표값에 대응하는 음소의 정적 패턴 분류를 수행하는 단계와, 상기 음소의 정적 패턴 분류 결과로부터 화자의 단어 또는 문장의 동적 패턴 인식을 수행하는 단계를 포함할 수 있다.

이때, 상기 수신된 스테레오 영상에서 화자의 입술 영역을 추출하는 단계는, HSV 색공간법을 이용하여 화자의 입술 영역을 추출할 수 있다.

또한, 상기 추출된 화자의 입술 영역에서 윤곽을 추출하는 단계는, 캐니(Canny) 경계선 검출 알고리즘을 이용하여 윤곽을 추출할 수 있다.

또한, 상기 추출된 윤곽에서 특징점을 추출하는 단계는, 비터비(Viterbi) 알고리즘을 이용하여 특징점들이 최소 거리 간격으로 연결되도록 특징점을 추출할 수 있다.

또한, 상기 능동 표현 모델로부터 실시간으로 추출되는 특징점의 3차원 좌표값을 계산하는 단계는, 삼각법을 이용하여 3차원 좌표값을 계산할 수 있다.

또한, 상기 계산된 3차원 좌표값과 대응하는 음소의 정적 패턴 분류를 수행하는 단계는, 가우시안 혼합 모델(Gaussian Mixture Model)을 이용하여 음소의 정적 패턴 분류를 수행할 수 있다.

또한, 상기 음소의 정적 패턴 분류 결과로부터 화자의 단어 또는 문장의 동적 패턴 인식을 수행하는 단계는, 은닉 마코프 모델(Hidden Markov Model)을 이용하여 화자의 단어 또는 문장의 동적 패턴 인식을 수행할 수 있다.

본 발명에 따른 음성 인식 장치 및 음성 인식 방법에 의하면, 실시간으로 입술 영역의 특징점을 추출하고, 추출된 특징점을 이용하여 화자가 의도하는 음성을 보다 정확하게 인식할 수 있다.

나아가 본 발명에 따른 음성 인식 장치 및 음성 인식 방법은 휴대형 스테레오 카메라를 이용한 기술로서, 스마트폰이나 타블렛 PC 등에 장착이 가능하여 하드웨어 및 소프트웨어의 구축이 용이하고, 휴대 및 설치가 간편하다는 장점이 있다. 또한, 이는 일반 사용자를 위한 음성 인식 및 스마트 인터페이스로 사용될 수 있을 뿐만 아니라, 음성 장애 환자 및 노약자를 위한 의사소통 보조 시스템으로 이용될 수 있다.

도 1은 본 발명의 일실시예에 따른 음성 인식 장치의 개략 사시도이다.
도 2a는 본 발명의 다른 일실시예에 따른 음성 인식 장치에 결합되는 스테레오 영상 획득부의 개략 사시도이다.
도 2b은 도 2a의 스테레오 영상 획득부가 결합된 다른 일실시예에 따른 음성 인식 장치의 개략 사시도이다.
도 3은 본 발명의 일실시예에 따른 음성 인식 장치의 개략 구성도이다.
도 4는 본 발명의 일실시예에 따른 음성 인식 장치의 능동 표현 모델부의 학습을 위한 특징점 추출 과정을 나타내는 도면이다.
도 5는 본 발명의 일실시예에 따른 음성 인식 장치의 능동 표현 모델부를 이용한 실시간 특징점 추출 과정을 나타내는 도면이다.
도 6은 본 발명의 일실시예에 따른 음성 인식 장치의 특징점의 3차원 좌표를 획득하는 방법을 나타내는 도면이다.
도 7은 본 발명의 일실시예에 따른 음성 인식 장치의 특징점의 3차원 좌표로부터 화자의 음성을 인식하는 방법을 나타내는 도면이다.
도 8은 본 발명의 일실시예에 따른 음성 인식 방법을 설명하는 순서도이다.

이하에서는 첨부도면을 참조하여 본 발명에 대해 상세히 설명한다. 그러나, 첨부도면 및 이하의 도면은 본 발명에 따른 음성 인식 장치 및 음성 인식 방법의 가능한 일실시예에 불과하며, 본 발명의 기술적 사상은 이 내용에 한정되지 아니한다.

도 1은 본 발명의 일실시예에 따른 음성 인식 장치의 개략 사시도이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 음성 인식 장치(10)가 도시되어 있으며, 음성 인식 장치(10)에는 스테레오 영상 획득부(12)와 발광부(14)가 구비된다.

음성 인식 장치(10)는 화자의 영상을 이용하여 화자의 음성을 인식하는 장치이다. 음성 인식 장치(10)는 스마트폰이나 타블렛 PC 등의 IT 디바이스에 응용될 수 있다.

스테레오 영상 획득부(12)는 정규화된 위치(canonical position)로 배치된 두 개의 CCD(Charge Coupled Devide) 카메라, 디지털 카메라, 동영상 처리 장치 등으로 이루어질 수 있으며, 화자의 스테레오 영상을 획득하는 역할을 한다. 즉, 두 개의 카메라를 이용하여 사람이 두 눈을 이용하여 양안 시차 영상을 획득하는 것과 유사하게 시차 영상을 획득하게 된다.

발광부(14)는 광 다이오드(LED) 조명으로 이루어져 스테레오 카메라(12)가 화자의 영상을 획득하는데 적합한 빛을 제공한다.

도 2a는 본 발명의 다른 일실시예에 따른 음성 인식 장치에 결합되는 스테레오 영상 획득부의 개략 사시도이며, 도 2b은 도 2의 스테레오 영상 획득부가 결합된 다른 일실시예에 따른 음성 인식 장치의 개략 사시도이다.

도 2a 및 도 2b를 참조하면, 본 발명의 다른 일실시예에 따른 음성 인식 장치(30)는 별도로 구성되는 스테레오 영상 획득부(20)와 결합할 수 있게 구성된다.

스테레오 영상 획득부(20)는 스테레오 카메라(22)와 발광부(24)와, 연결부(26)를 포함하여 구성된다. 스테레오 영상 획득부(20)는 연결부(26)를 통하여 음성 인식 장치(30)와 결합될 수 있다.

이와 같이 본 발명에 따른 음성 인식 장치는 도 1, 도 2a, 도 2b에 도시된 바와 같이 스테레오 영상 획득부가 일체형으로 구성되거나, 분리형으로 구성될 수도 있다. 이하, 도 1의 본 발명의 일실시예에 따른 음성 인식 장치(10)를 예로 들어 구성 및 동작에 대해서 상세히 설명하기로 한다.

도 3은 본 발명의 일실시예에 따른 음성 인식 장치의 개략 구성도이다.

도 3을 참조하면, 본 발명의 일실시예에 따른 음성 인식 장치(10)는 스테레오 영상 획득부(12)와, 영상 처리부(15)와, 음성 출력부(17)를 포함하여 구성된다.

영상 처리부(15)는 영상 프레임 획득부(15a)와, 입술 영역 추출부(15b)와, 입술 윤곽 추출부(15c)와, 특징점 추출부(15d)와, 능동 표현 모델부(15e)와, 3차원 좌표 계산부(15f)와, 가우시안 혼합 모델부(15g)와, 은닉 마코프 모델부(15i)를 포함하여 구성된다.

스테레오 영상 획득부(12)는 전술한 바와 같이 두 개의 CCD 카메라로 이루어질 수있으며, 예를 들어 초당 30 프레임으로 640×480 픽셀의 시차 영상을 영상 처리부(15)로 전송할 수 있다.

영상 처리부(15)는 스테레오 영상 획득부(12)로부터 화자의 스테레오 영상을 수신하고, 수신된 스테레오 영상에서 화자의 입술 영역을 추출하고, 추출된 입술 영역의 특징점의 3차원 좌표값에 대응하는 음소를 분류함으로써 화자의 음성을 인식하는 역할을 한다. 이하 영상 처리부(15)의 동작을 하위 구성의 동작과 함께 상세히 설명한다.

영상 프레임 획득부(15a)는 스테레오 영상 획득부(12)로부터 스테레오 영상을 수신하여 한 프레임씩 분리하고, 이 프레임별 스테레오 영상을 입술 영역 추출부(15b)와 능동 표현 모델부(15e)로 전송하는 역할을 한다.

입술 영역 추출부(15b)는 영상 프레임 획득부(15a)로부터 프레임별 스테레오 영상을 수신하여, 이로부터 화자의 입술 영역을 추출하는 역할을 한다. 입술 영역의 추출은 기존의 경계선 검출 방법을 이용하여 수행할 수도 있지만, 이 방법은 불필요한 안면부 영역이 자주 검출되고 경계면이 일정하게 연결되지 않는 단점이 있다. 따라서, 본 발명의 입술 영역 추출부(15b)는 색조(Hue), 채도(Saturation), 그리고 명암(Value)을 이용하는 HSV 색공간법(Colorspace)을 이용한다. 이는 얼굴 영역과 입술 영역은 RGB 색공간에서보다 HSV 색 공간에서 더욱 큰 수치적 차이를 나타내므로 효과적으로 입술 영역만을 검출할 수 있기 때문이다. 입술 영역 추출부(15b)는 HSV 색공간법을 이용하여 입술 영역과 혀, 치아, 얼굴을 포함한 나머지 영역으로 구분한다.

입술 윤곽 추출부(15c)는 입술 영역 추출부(15b)에서 추출된 입술 영역의 윤곽을 추출하는 역할을 한다. 즉, 입술 윤곽 추출부(15c)는 윗 입술과 아랫 입술의 경계선을 찾기 위해 캐니(Canny) 경계선 검출 알고리즘을 사용하여 내부 입술의 윤곽선(contour)과 외부 입술의 윤곽선을 구한다.

특징점 추출부(15d)는 입술 윤곽 추출부(15c)에서 추출된 입술 영역의 특징점을 추출하는 역할을 한다. 특징점 추출부(15d)는 내부 입술의 윤곽선과 외부 입술의 윤곽선의 두 개의 윤곽선에 대하여 각각 미리 설정된 개수(예를 들어 8개)의 특징점을 정의하고 각각의 윤곽선 상의 미리 설정된 개수의 특징점들이 최소 거리 간격으로 연결되도록 한다. 이와 같은 최적화 문제를 풀기 위하여 동적 프로그래밍 방법의 하나인 비터비(Viterbi) 알고리즘을 사용할 수 있다.

이때, 특징점 추출 방법으로는 영상 기반 접근 방법과 모양 정보 기반 접근 방법이 있을 수 있다. 영상 기반 접근 방법은 선택된 입술 모양 형상을 그대로 특징점 추출에 사용하는 방법이다. 이 방법은 모양 정보 기반 접근 방법에 비해 많은 정보를 포함하여 성능 개선의 여지가 있으나, 입술 영역 선택 알고리즘의 오차가 심할 경우에 정확한 입술 모양 특징점을 추출할 수 없는 단점이 있다. 반면에 모양 정보 기반 접근 방법은 입술의 기하학적 모양을 분석하여 이를 입술 특징으로 사용하는 방법이며 입술 영역 검출시 얻은 입술 모양의 길이, 꼭지점, 곡률 등이 특징점으로 추출된다. 그러나, 이 방법은 정보량이 많고 영상 기반 접근 방법과 같이 입술 영역 선택 알고리즘의 성능에 따라 특징점의 편차가 심한 단점이 있다.

능동 표현 모델부(15e)는 능동 표현 모델(Active Appearance Model)을 기반으로 입술 영역 추출부(15b)와, 입술 윤곽 추출부(15c)와, 특징점 추출부(15d)를 이용하여 학습 데이터 베이스를 구축하고, 구축된 학습 데이터 베이스를 이용하여 실시간으로 수신되는 스테레오 영상으로부터 특징점을 추출하는 역할을 한다.

능동 표현 모델(AAM)은 정교한 얼굴 특징점 정보를 추출할 수 있기 때문에 추적과 인식에서 많이 사용되고 있으며 좋은 성능을 보여준다. 그러나, 능동 표현 모델(AAM)은 초기 얼굴 모양에 대한 사전 데이터 베이스가 미리 구축되어야 한다. 이러한 사전 데이터 베이스는 수작업이나 추가적인 얼굴 검출 방법을 이용하여 구축될 수 있다. 하지만, 얼굴의 이동이 큰 경우에는 이전 얼굴 모양의 결과를 사전 정보로 이용할 수 없기 때문에 재초기화가 필요하며, 사전 정보들이 현재 상황의 얼굴 모양과 큰 차이를 가질 경우에는 재초기화가 불가능하여 추적 성능이 낮아질 수 있다. 학습 데이터 베이스 구축의 다음과 같이 수행될 수 있다.

즉, 능동 표현 모델부(15e)는 위와 같은 입술 영역 검출 및 입술 특징점 추출 알고리즘을 이용하여 미리 설정된 표준 문장에 대한 학습 데이터 베이스를 구축한다. 일 실시예로써, 표준 문장은 20개의 단음절 단어, 30 개의 이음절 단어, 그리고 모음으로 구성될 수 있으며, 입술 모양의 16개 특징점들은 표준 문장을 구성하는 음소 단위에 대하여 추출되어 데이터 베이스에 저장된다.

학습 과정에서 능동 표현 모델부(15e)는 학습된 데이터 베이스에 기반하여 초기화되며, 실시간 처리 과정에서는 새롭게 입력되는 화자의 안면부 영상에 대하여 실시간으로 특징점을 추출함으로써 입술 모양 추척을 한다.

3차원 좌표 계산부(15f)는 삼각법을 이용하여 능동 표현 모델부(15e)가 추출한 스테레오 영상의 특징점의 3차원 좌표값을 계산하는 역할을 한다. 3차원 좌표 계산부(15f)의 입술 모양 추적은 2 개의 시차 영상에 대하여 동일하게 수행되며, 각 영상의 16개의 특징점은 입술의 동일한 부분을 대표하게 된다. 따라서, 스테레오 비전에서 사용하는 삼각법을 이용하여 각 특징점의 3차원 좌표값을 계산한다.

음소 패턴 분류기인 가우시안 혼합 모델부(15g)는 가우시안 혼합 모델(Gaussian Mixture Model)을 이용하여 3차원 좌표 계산부(15f)가 계산한 스테레오 영상의 특징점의 3차원 좌표값과 대응하는 음소를 분류한다.

은닉 마코프 모델부(15i)는 은닉 마포크 모델(Hidden Markov Model)을 이용하여 가우시안 혼합 모델부(15g)가 분류한 음소로부터 화자의 단어 또는 문장을 인식하는 역할을 한다. 즉, 음소 패턴 분류기인 가우시안 혼합 모델부(15g)의 출력은 시간의 흐름에 따라 변화하며, 시계열 패턴 인식기인 은닉 마코프 모델부(15i)의 입력으로 사용되며, 은닉 마코프 모델부(15i)는 은닉 마코프 모델을 이용하여 화자의 음성이 의도하는 단어 및 문장을 추정한다.

음성 출력부(17)는 은닉 마코프 모델부(15i)가 인식한 화자의 단어 또는 문장을 TTS(Text to Speech) 시스템을 이용하여 음성으로 출력하는 역할을 한다.

도 4는 본 발명의 일실시예에 따른 음성 인식 장치의 능동 표현 모델부의 학습을 위한 특징점 추출 과정을 나타내는 도면이다.

도 4를 참조하면, 스테레오 영상 획득부(12)가 2 개의 스테레오 카메라를 이용하여 촬영한 2 개의 입술 영역 이미지가 도시되어 있음을 확인할 수 있다. 스테레오 영상 획득부(12)로부터 획득한 RGB 컬러 영역의 이미지를 HSV 컬러 영역의 이미지로 변환시킨 경우에 입술 영역과 그 이외의 부분이 뚜렷하게 구분됨을 알 수 있다.

이때, 앞에서 설명한 HSV 색공간법을 이용하여 입술 영역을 추출하고, 캐니(Canny) 경계선 검출 알고리즘을 이용하여 입술 윤곽을 추출하고, 16개의 특징점들을 비터비(Viterbi) 알고리즘을 이용하여 획득함으로써 학습 데이터 베이스를 구축한다.

도 4에서 학습 데이터 베이스가 구축되면, 도 5에서 볼 수 있듯이, 능동 표현 모델부(15e)는 스테레오 영상 획득부(12)에 실시간으로 입력되는 화자의 스테레오 이미지로부터 입술 영역을 검출하여 학습된 데이터 베이스를 기초로 입술 영역의 특징점을 추출한다.

도 5에서 실시간으로 입술 영역의 특징점이 추출되면 도 6에서 볼 수 있듯이 3차원 좌표 계산부(15f)는 스테레오 비전에서 사용되는 삼각법을 이용하여 특징점의 3차원 좌표를 획득한다.

도 6에서 획득한 특징점의 3차원 좌표는 도 7에서 볼 수 있듯이, 가우시안 혼합 모델부(15g)로 입력되어 음소가 분류되어 출력되고, 이 분류된 음소는 다시 은닉 마코프 모델부(15i)로 입력되어 단어 또는 문장이 인식된다. 이 인식되 단어 또는 문장은 앞에서 언급한 바와 같이 음성 출력부(17)를 통하여 음성으로 출력될 수 있다.

이하, 본 발명의 일실시예에 따른 음성 인식 방법을 도 8의 순서도를 참조하여 상세히 설명한다.

스테레오 영상 획득부(12)는 화자의 스테레오 영상을 획득하고(100), 영상 프레임 획득부(15a)는 이 스테레오 영상을 입력 받아 프레임별 영상을 획득한다(102). 이때, 영상 처리부(15)는 입력된 화자의 영상에 대응하는 학습 데이터 베이스의 유무 또는 화자의 영상의 방향에 따라서 학습이 필요한지를 판단한다(104).

학습이 필요하다고 판단되면, 입술 영역 추출부(15b)를 통하여 HSV 색공간법을 이용하여 입술 영역을 추출하고(106), 입술 윤곽 추출부(15c)를 통하여 캐니(Canny) 경계선 검출 알고리즘을 이용하여 추출된 입술 영역에서 입술 윤곽을 추출하고(108), 특징점 추출부(15d)를 통하여 비터비(Viterbi) 알고리즘을 이용하여 입술 윤곽에서 특징점을 추출하여(110), 학습 데이터 베이스를 구축한다.

학습이 필요하지 않다고 판단된 경우 또는 학습이 완료된 경우에는 능동 표현 모델부(15f)는 능동 표현 모델(AAM)을 이용하여 실시간으로 입술의 특징점을 추출한다(112). 입술의 특징점이 추출되면, 3차원 좌표 계산부(15f)는 삼각법을 이용하여 입술 특징점의 3차원 좌표를 계산한다(114).

3차원 좌표가 계산되면, 가우시안 혼합 모델부(15g)는 입술 특징점의 3차원 좌표에 대응하는 음소를 분류하고(115), 은닉 마코프 모델부(15i)는 분류된 음소를 이용하여 화자의 단어 및 문장을 인식한다(116). 음성 출력부(17)는 이 인식된 화자의 단어 및 문장을 TTS 시스템을 이용하여 음성으로 출력한다(118).

본 발명은 이와 같은 방법으로, 스테레오 영상 획득부를 이용하여 입술 영역을 포함하는 2개의 스테레오 영상을 획득하고, 이 2 개의 스테레오 영상으로부터 특징점을 추출하여 3차원 좌표값을 계산하고, 미리 구축된 음성에 따른 입술 모양 특징점들의 3차원 좌표와 유사도를 비교함으로써 음성을 인식함으로써, 보다 향상된 음성 인식률을 제공한다.

10 : 음성 인식 장치 12 : 스테레오 카메라
14 : 발광부 15 : 영상 처리부
15a : 영상 프레임 획득부 15b : 입술 영역 추출부
15c : 입술 윤곽 추출부 15d : 특징점 추출부
15e : 능동 표현 모델부 15f : 3차원 좌표 계산부
15g : 가우시안 혼합 모델부 15i : 은닉 마코프 모델부
17 : 음성 출력부 20 : 스테레오 영상 획득부
22 : 스테레오 카메라 24 : 발광부
30 : 음성 인식 장치

Claims

스테레오 영상 획득부; 및
상기 스테레오 영상 획득부로부터 화자의 스테레오 영상을 수신하고, 상기 수신된 스테레오 영상에서 화자의 입술 영역을 추출하고, 상기 추출된 입술 영역의 특징점의 3차원 좌표값에 대응하는 음소를 분류함으로써 화자의 음성을 인식하는 영상 처리부를 포함하는 음성 인식 장치.
제 1 항에 있어서,
상기 영상 처리부는,
상기 수신된 스테레오 영상에서 화자의 입술 영역을 추출하는 입술 영역 추출부;
상기 입술 영역 추출부에서 추출된 입술 영역의 윤곽을 추출하는 입술 윤곽 추출부; 및
상기 입술 윤곽 추출부에서 추출된 입술 영역의 윤곽에서 특징점을 추출하는 특징점 추출부를 포함하는 것을 특징으로 하는 음성 인식 장치.
제 2 항에 있어서,
상기 입술 영역 추출부는 HSV 색공간법을 이용하여 화자의 입술 영역을 검출하는 것을 특징으로 하는 음성 인식 장치.
제 2 항에 있어서,
상기 입술 윤곽 추출부는 캐니(Canny) 경계선 검출 알고리즘를 이용하여 입술 영역의 윤곽을 추출하는 것을 특징으로 하는 음성 인식 장치.
제 2 항에 있어서,
상기 특징점 추출부는 비터비(Viterbi) 알고리즘을 이용하여 특징점들이 최소 거리 간격으로 연결되도록 특징점을 추출하는 것을 특징으로 하는 음성 인식 장치.
제 2 항에 있어서,
상기 영상 처리부는,
능동 표현 모델(Active Appearance Model)을 기반으로 상기 입술 영역 추출부와, 상기 입술 윤곽 추출부와, 상기 특징점 추출부를 이용하여 학습 데이터 베이스를 구축하고, 상기 구축된 학습 데이터 베이스를 이용하여 실시간으로 상기 수신된 스테레오 영상으로부터 특징점을 추출하는 능동 표현 모델부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
제 6 항에 있어서,
상기 영상 처리부는,
삼각법을 이용하여 상기 능동 표현 모델부가 추출한 상기 수신된 스테레오 영상의 특징점의 3차원 좌표값을 계산하는 3차원 좌표 계산부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
제 7 항에 있어서,
상기 영상 처리부는,
가우시안 혼합 모델(Gaussian Mixture Model)을 이용하여 상기 3차원 좌표 계산부가 계산한 상기 수신된 스테레오 영상의 특징점의 3차원 좌표값과 대응하는 음소를 분류하는 가우시안 혼합 모델부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
제 8 항에 있어서,
상기 영상 처리부는,
은닉 마코프 모델(Hidden Markov Model)을 이용하여 상기 가우시안 혼합 모델부가 분류한 음소로부터 화자의 단어 또는 문장을 인식하는 은닉 마코프 모델부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
제 9 항에 있어서,
상기 은닉 마코프 모델부가 인식한 화자의 단어 또는 문장을 TTS(Text to Speech) 시스템을 이용하여 음성으로 출력하는 음성 출력부를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
스테레오 영상 획득부를 이용하여 화자의 스테레오 영상을 수신하는 단계;
상기 수신된 스테레오 영상에서 화자의 입술 영역을 추출하는 단계;
상기 추출된 화자의 입술 영역에서 윤곽을 추출하는 단계;
상기 추출된 윤곽에서 특징점을 추출하는 단계;
상기 추출된 특징점을 이용하여 능동 표현 모델(Active Appearance Model)을 학습시키는 단계;
상기 수신된 스테레오 영상을 상기 능동 표현 모델에 입력하여 실시간으로 특징점을 추출하는 단계;
상기 능동 표현 모델로부터 실시간으로 추출되는 특징점의 3차원 좌표값을 계산하는 단계;
상기 계산된 3차원 좌표값과 대응하는 음소의 정적 패턴 분류를 수행하는 단계; 및
상기 음소의 정적 패턴 분류 결과로부터 화자의 단어 또는 문장의 동적 패턴 인식을 수행하는 단계를 포함하는 음성 인식 방법.
제 11 항에 있어서,
상기 수신된 스테레오 영상에서 화자의 입술 영역을 추출하는 단계는,
HSV 색공간법을 이용하여 화자의 입술 영역을 추출하는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서,
상기 추출된 화자의 입술 영역에서 윤곽을 추출하는 단계는,
캐니(Canny) 경계선 검출 알고리즘을 이용하여 윤곽을 추출하는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서,
상기 추출된 윤곽에서 특징점을 추출하는 단계는,
비터비(Viterbi) 알고리즘을 이용하여 특징점들이 최소 거리 간격으로 연결되도록 특징점을 추출하는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서,
상기 능동 표현 모델로부터 실시간으로 추출되는 특징점들의 3차원 좌표값을 계산하는 단계는,
삼각법을 이용하여 3차원 좌표값을 계산하는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서,
상기 계산된 3차원 좌표값에 대응하는 음소의 정적 패턴 분류를 수행하는 단계는,
가우시안 혼합 모델(Gaussian Mixture Model)을 이용하여 음소의 정적 패턴 분류를 수행하는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서,
상기 음소의 정적 패턴 분류의 결과로서 화자의 단어 또는 문장의 동적 패턴 인식을 수행하는 단계는,
은닉 마코프 모델(Hidden Markov Model)을 이용하여 화자의 단어 또는 문장의 동적 패턴 인식을 수행하는 것을 특징으로 하는 음성 인식 방법.