본 발명에서는 손 정보 검출 인식 표현방법의 다양화와 더불어 얼굴과 걸음걸이 위치, 모양 정보를 종합적으로 이용하여 IPTV를 동작 제어하는데 목적이 있다. 손 정보는 단순히 정지영상을 이용한 인식 방법인 Hand posture와 손의 동작을 인식하는 Hand gesture가 있다. 얼굴영역의 인식을 통해서 성인과 미성년인지 판단하고 머리와 입 위치와 제스춰 정보로 IPTV를 동작 제어하는데 목적이 있다. 또한 다리의 위치와 모양을 이용한 인식, 즉 GAIT 즉 걸음걸이 정보를 이용하여 IPTV의 모드를 동작제어하는데 목적이 있다. 하지만 이러한 정보는 주변의 배경 또는 환경에 따라서 인식률이 크게 변한다. 간단한 전처리 과정을 거쳐서 좀 더 인식률을 개선하는데 목적이 있다. Hand posture와 Hand gesture는 뉴럴 네트워크와 HMM 알고리즘을 적용하고, 얼굴인식은 PCA 알고리즘을 적용한다.
상기 과제를 해결하기 위해서, 제 1 관점으로 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)에 있어서, 사용자의 모습을 촬상하는 촬상수단(150)과, 상기 촬상수단으로부터 획득한 영상화면으로부터 얼굴영역을 추출하는 얼굴영역추출부(110)와, 추출된 상기 얼굴영역으로 성인인지를 판별하여 성인채널의 시청가능여부를 판별하는 얼굴영역인식부(120)를 포함하는 것을 특징으로 하는 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)이 제시된다.
상기 제 1 관점에 있어서,
상기 얼굴영역추출부(110)는, YCbCr 색모델에서 Cr영역으로 얼굴영역을 검출하는 것을 특징으로 한다.
제 2 관점으로서, 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)에 있어서, 사용자의 모습을 촬상하는 촬상수단(150)과, 상기 촬상수단으로부터 획득한 영상화면으로부터 얼굴제스춰를 인식하여 전원의 ON/OFF를 제어하는 전원제어부(160)를 포함하는 것을 특징으로 하는 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)이 제시된다.
제 3 관점으로서, 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)에 있어서, 사용자의 모습을 촬상하는 촬상수단(150)과, 상기 촬상수단으로부터 획득한 영상화면으로부터 손제스춰에 따라 문자와 숫자를 인식하여 문자입력 및 채널변경과 음량변경을 제어하는 손제스춰인식부(130)를 포함하는 것을 특징으로 하는 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)이 제시된다.
상기 제 3 관점에 있어서,
상기 손제스춰인식부(130)는, 손제스춰에 따라 문자를 인식하여 디스플레이장치(10)에 문자를 입력하는 문자인식부(131)와, 손제스춰에 따라 숫자를 인식하여 채널을 제어하는 숫자인식부(132)와 채널 앞으로 변경과 채널 뒤로 변경의 손제스춰를 인식하여 채널을 변경하고 음량을 높임과 낮춤의 손제스춰를 인식하여 음량을 제어하는 채널 및 음량조절부(133)를 포함하는 것을 특징으로 하고,
상기 문자인식부(131)는, BP알고리즘을 이용하여 문자를 인식하는 것을 특징으로 하고,
상기 채널 및 음량조절부(133)는, 채널 변경과 음량의 높낮이를 제어하기 위한 손제스춰를 인식하기 위해 은닉 마르코프 모델을 적용한 것을 특징으로 하고,
상기 제 3 관점에 있어서,
상기 손제스춰인식부(130)는, HSI 색공간을 이용하여 피부영역을 획득하고 상기 피부영역으루부터 이진화 영상을 획득한 후 상기 이진화 영상에 대한 레이블링을 하여 손영역을 검출하는 것을 특징으로 한다.
제 4 관점으로서, 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)에 있어서, 사용자의 모습을 촬상하는 촬상수단(150)과, 상기 촬상수단으로부터 획득한 영상화면으로부터 다리제스춰에 따라 디스플레이장치의 모드를 제어하는 다리제스춰인식부(140)를 포함하는 것을 특징으로 하는 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)이 제시된다.
상기 제 1, 2, 3, 4 관점에 있어서,
상기 디스플레이장치는, IPTV인 것을 특징으로 한다.
이상에서와 같이 본 발명을 적용하게 될 경우, 생체 정보를 이용하여 IPTV에 제어정보를 제공하므로, 사용자는 신체의 움직임만으로 IPTV를 쉽게 동작 제어 및 모드변환을 수행할 수 있다. 손 정보 검출 인식 표현방법의 다양화와 더불어 얼굴과 걸음걸이 위치, 모양 정보를 종합적으로 이용하여 IPTV를 동작 제어할 수 있다. 간단한 전처리 과정을 거쳐서 좀 더 인식률을 개선할 수 있다.
본 발명을 이용할 경우 기존의 IPTV 리모트 콘트롤의 단점인 버튼을 눌러야 한다는 불편함과 항상 곁에 두어야 한다는 단점을 없애고 사용자의 움직임만으로 제어가 가능하다.
또한 다양한 분야에서 응용이 가능하다. 입의 추적을 이용한 생체 마우스, 손 정보를 이용한 수화인식, 얼굴인식을 통한 생체인증시스템, 몸 정보를 이용한 휴먼게임기등 여러 분야에서 응용이 가능하다.
이하, 본 발명의 실시 예에 대한 구성 및 그 작용을 첨부한 도면을 참조하면서 상세히 설명하기로 한다.
도 20은 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)의 구성도를 도시하고 있다. 도 21은 손제스춰인식부(130)를 상세히 도시하고 있다. 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)은 디스플레이장치(10)의 내부에 설치된다. 디스플레이장치는 차세대 통합형 디스플레이장치 또는 IPTV 일 수 있다. 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)은 촬상수단(150), 얼굴영역추출부(110), 얼굴영역인식부(120), 손제스춰인식부(130), 다리제스춰인식부(140), 전원제어부(160)로 구성된다. 촬상수단(150)은 사용자의 모습을 촬상한다. 얼굴영역추출부(110)는 상기 촬상수단으로 획득한 영상화면으로부터 얼굴영역을 추출한다. 얼굴영역인식부(120)는 추출된 상기 얼굴영역으로 성인인지 판별하여 성인채널의 시청가능여부를 판별한다. 전원제어부(160)는 상기 촬상수단으로부터 획득한 영상화면으로부터 얼굴제스춰를 인식하여 전원의 ON/OFF를 제어한다. 손제스춰인식부(130)는 상기 촬상수단으로부터 획득한 영상화면으로부터 손제스춰에 따라 문자와 숫자를 인식하여 문자입력 및 채널변경과 음량변경을 제어한다. 다리제스춰인식부(140)는 상기 촬상수단으로부터 획득한 영상화면으로부터 다리제스춰에 따라 디스플레이장치의 모드를 제어한다. 상기 손제스춰인식부(130)는 문자인식부(131)와 숫자인식부(132), 채널 및 음량조절부(133)로 구성되어 있다. 문자인식부(131)는 손제스춰에 따라 문자를 인식하여 디스플레이장치(10)에 문자를 입력한다. 숫자인식부(132)는 손제스춰에 따라 숫자를 인식하여 채널을 제어한다. 채널 및 음량조절부(133)는 채널 앞으로 변경과 채널 뒤로 변경의 손제스춰를 인식하여 채널을 변경하고 음량을 높임과 낮춤의 손제스춰를 인식하여 음량을 제어한다.
사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)은 얼굴, 손, 다리의 신체적인 정보를 이용하여 IPTV 또는 차세대통합형디스플레이장치를 제어하는 것이다. 도 1에서 본 발명에 대한 전체적인 흐름을 도시하고 있다. 도 2에서는 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)이 IPTV를 자동제어하는 것을 설명하고 있다.
다음으로 상기 얼굴영역추출부(110)에서의 처리과정을 살펴보자. 얼굴영역추출은 얼굴인식을 위한 전처리 과정으로서 정확하게 얼굴영역을 추출하는 것이 중요하다. 얼굴영역과 배경을 정확히 분리함으로써 얼굴의 특징점 추출과 인식 과정에서의 기타 잡음으로 인한 오 인식률을 개선할 수 있다.
본 발명에서는 이러한 특성을 이용하여 얼굴 피부 색조로 얼굴 영역을 검출하였다. 얼굴의 각 부분은 색상과 모양 정보를 기반으로 결정되기 때문에 피부와 유사한 색도와 휘도를 가진 영역을 먼저 추출한다. 이를 위해 피부 색조의 RGB 피부 색상을 YCbCr 색 모델로 변환한다. YCbCr 색 모델에서 Cr 값을 이용하여 피부 영역을 찾아내기 위해 피부 색조를 정의함으로써 얼굴의 다른 영역을 피부 색조를 구별하는데 적절한 칼라 이미지의 값을 찾아내어 이미지에서 얼굴 피부 영역만을 검출한다. 도 3은 YCbCr 색 모델에서 Cr영역으로 검출한 얼굴영역을 도시하고 있다.
다음으로 상기 얼굴영역인식부(120)에서의 처리과정을 살펴보자. 찾아진 얼굴 영역은 Haar-like feature 방법으로 찾아진 얼굴 영역을 Cr영역으로 검출한 얼굴 영역과 매칭을 하고 얼굴 영역 외의 영역은 모두 제거를 한다. 이렇게 찾아진 얼굴 영역은 PCA 알고리즘을 적용하여 입력되는 얼굴 이미지를 학습시키고 고유 얼굴을 만든다. 만들어진 고유 얼굴은 새롭게 입력되는 얼굴 영상과 매칭을 통하여 유사도가 가장 높은 얼굴을 찾고 인식을 한다. 도 4는 Haar-like feature 방법으로 찾아진 얼굴 영역을 도시하고 있다. 도 5는 PCA 알고리즘 적용으로 생성된 고유 얼굴(eigen face)을 도시하고 있다.
여기서 PCA 알고리즘은 벡터표현의 통계적 특성을 기반으로 한 방법으로 Karhunen-Loeve 근사법으로 부르기도 하며, 통계적으로 변화가 있는 N차원의 M개의 벡터를 공분산(Convariance) 행렬에 의해 고유 벡터(Eigen Vector)로 표현한다. 이 분석법은 서로 다른 공간의 차원을 줄여서 간단히 표현하는 실용적인 방법으로 널리 알려져 있다. PCA의 기본적인 아이디어는 전체 영상공간에서 얼굴을 가장 잘 표현할 수 있는 벡터를 찾는데 있다. 다시 말해서 원래의 얼굴 영상에서 일치하는 공분산 행렬의 고유벡터를 찾는 것이다. 여기서 고유벡터는 얼굴처럼 표현되기 때문에 고유 얼굴(Eigen Face)이라는 용어를 사용한다.
본 발명에서는 얼굴 인식을 통하여 성인과 미성년자를 구분하여 채널의 선택권을 제한하게 된다. 성인만이 시청할 수 있는 성인물, 또는 교육에 좋지 않은 방송 채널을 얼굴 인식으로 성인 또는 미성년자를 판별하여 시청을 제한할 수 있다.
다음으로 전원제어부(160)에서의 처리과정을 살펴보자. 얼굴의 움직임으로 IPTV의 전원을 제어한다. 얼굴의 움직임은 입술을 추적함으로써 인식이 가능하다. 사람의 얼굴에서 가장 두드러진 피부 색 특징을 가지는 부분은 입술이며, 얼굴의 움직임, 즉 각도의 변화에도 입술정보는 찾아내기가 용이하다.
사람의 입(황인종이든 백인종이든 흑인종이든 간에)은 얼굴의 다른 영역보다 더 많은 붉은색 성분을 포함한다는 사실을 알 수 있었다. 그러나 입은 다른 얼굴 영역보다 좀 더 미약한 파란색 성분을 포함하고 있다는 사실도 알 수 있었다. 그래서 입 부위의 YCbCr 색 공간에서 Cr값은 얼굴의 다른 영역보다 더 크며, Cb 값은 더 낮다. 왜냐하면, 이러한 입 부위의 gray level 역시 다른 얼굴 영역보다 더 낮 기 때문이다. 따라서 본 발명에서는 웹 카메라가 입의 위치를 추적하여 얼굴의 움직임을 인지한다. 도 6은 입술추적 결과를 보여준다.
입술추적을 통하여 얼굴의 위치변화를 감지할 수 있고, 얼굴을 좌우로 젓거나 위아래로 끄덕이는 움직임을 통하여 IPTV의 전원을 제어할 수 있다. 좌우로 젓는 움직임은 IPTV전원 OFF, 위아래로 끄덕이는 움직임은 IPTV전원 ON을 뜻하는 명령이다.
다음으로 손제스춰인식부(130)에서의 처리과정을 살펴보자. 일반적으로, 손 영역을 검출하기 위한 방법으로는 RGB 컬러 모델에서 피부색을 찾는 것이 보편적이다. RGB 컬러 좌표계를 이용하면 RGB 성분 모두에 색상 정보가 포함되어 있으므로 16,777,216가지 색상 모두에 대한 고려가 필요하다는 것을 의미한다. 따라서 대부분의 컬러 양상처리 응용 프로그램에서는 색상과 명도 정보가 혼합된 RGB 컬러 좌표계 상의 영상 정보를 색상과 명도 정보가 분리되는 다른 컬러 좌표계로 변환하여 처리한다. 또한, RGB 색 공간에서는 복잡한 배경에 대해 강인하지 못하다는 단점을 가지고 있다. 이러한 단점에 대한 해결책으로 HSI 색 모델을 제시한다.
HSI 모델이란 인간의 색인지에 기반을 둔 사용자 지향성의 색상모형이다. H는 색상(Hue), S는 채도(Saturation), I는 명도(Intensity)를 각각 나타내며 이러한 모형을 사용하면, 어떤 구체적인 컬러를 만들기 위해 색을 조합할 필요가 없다. 바로 좌표축 H자체가 색상을 나타낸다. 진한 빨간색을 엷은 빨강(분홍)색으로 만들기 위해서는 또 다른 좌표축 중의 하나인 S를 조절하면 된다. 밝기를 바꾸기 위해서는 I축을 조절한다. 색상(H)은 빨강, 파랑, 노랑 등의 색을 구별하기 위해 사용 되는 축으로 0~360°의 범위를 가진 각도 값으로 나타낸다. 채도(S)는 순색에 첨가된 백색광의 비율을 나타내며 0~1의 범위를 가진 반지름에 해당한다. 파란색의 벽면에 백색광을 비추면 파란색이 희미해지면서 백색에 가까워진다. S값이 0으로 떨어지게 되는 것이다. 빨강은 높은 채도의 색이고 분홍은 낮은 채도의 색이다. 빨강이 분홍보다 순색에 더 가깝다. 중심축에서 멀어지면 채도는 높아진다. 명도는 빛의 세기를 나타낸다. I축에 해당하며 0~1사이의 범위를 가진다. 0은 검정, 1은 흰색을 나타낸다. 도 7은 HSI좌표의 모형을 RGB축과 비교하여 도시하고 있다. HSI 모형은 실린더(cylinder) 모양으로 생긴 좌표로 RGB모형의 대각선인 회색라인을 중심축으로 한다. 도 7에서는 I로 표시되어 있다. 따라서 허용되는 채도(saturation)영역의 범위는 밝기가 밝거나 어두운 영역에서는 정육각형에 내접하는 타원의 크기가 작아지므로 이에 대응하여 작게 된다. 또한, 중심축인 회색라인(I축)에서 외각으로 멀어질수록 순색에 가까워지면서 채도가 증가하게 되고 중심축에서 가까우면 회색에 가까우므로 채도가 떨어지게 된다. 이러한 HSI 색 모델의 특성에 따라서 손 영역을 찾는데 가장 좋은 Hue 값을 이용하기로 한다. 손의 피부색이 가지는 Hue값이 배경에 강인하기 때문이다. 따라서 입력 영상은 RGB 색 모델에서 HSI 색 모델로 변환할 수 있다. Hue 값으로 검출한 손 영역은 입력된 영상에서 70%를 손 영역으로 획득한다. 도 8은 Hue 값에 의해 검출된 손 영역 이미지를 도시하고 있다. (a)는 원 이미지이고 (b)는 Hue 값으로 찾은 손 영역을 도시하고 있다.
HSI 색공간을 이용하여 피부영역을 획득하고 ,피부영역을 획득한 영상은 카메라나 외부의 환경으로 인하여 노이즈가 제거되지 않는다. 노이즈를 제거하기 위 하여 획득한 피부영상으로 이진화 영상을 획득한 후, 이진화 영상에 대한 레이블링을 하여 후보영역을 찾는다. 여기서 레이블링이란, 일반적으로 이진영상에서 수행되는 영역 구분 방법이다. 이진화 기법 등에 의해 생성된 이진 영상에서 픽셀값이 255인 인접한 픽셀들의 집합을 객체라고 한다면 하나의 객체는 한 개 이상의 인접한 픽셀로 이루어진다. 아래의 식(1)과 식(2)는 이진화를 나타내는 식이다. 식(1)에서 In은 입력영상을, Phase는 상,즉 입력영상에서의 손영역을 의미한다. 입력영상에서 손영역을 뺀 값이 평균값(128)보다 크면 255 즉 흰색이 되고 작으면 0 즉 검은색이 된다. 식(2)는 Cr 값이 평균값(128)보다 크면 255가 되고 작으면 0이 되는 것을 의미한다.
하나의 이진영상 안에는 다수의 객체가 존재할 수 있고, 동일 객체에 속한 모든 픽셀에 고유한 번호를 매기는 작업을 레이블링이라고 한다. 도 9는 손 영역 검출 과정을 도시하고 있다. (a)는 입력 영상이고 (b)는 엣지검출 영상이고 (c)는 손의 후보영역을 도시하고 있다. 찾아진 후보 영역에서 손 영역을 찾기 위해 수평 수직 투영 방법을 사용하였다. 도 10에서와 같이 수평영역투영(N1 - N2)방법으로 X 축에 대한 손 영역의 히스토그램을 얻고, 수직영역투영(N1 - N2)방법으로 Y축에 대한 히스토그램을 얻는다. 히스토그램이란 영상 내에서 각 그레이스케일 값에 해당하는 픽셀의 개수를 함수의 형태로 나타낸 것이다. 히스토그램은 영상의 속성을 잘 표현하기 때문에 영상의 압축, 분할, 내용 기반 검색 등 다양한 영상처리 분야에 사용된다. 또한, 히스토그램은 계산 방법이 매우 간단하기 때문에 소프트웨어 또는 하드웨어로 구현하기가 용이하다는 장점도 가지고 있다. 이와 같이 히스토그램방법을 이용하여 N1, N2, M1, M2에 대한 수평 수직 투영 방법을 이용하여 손 영역을 획득할 수 있다. 도 10은 손 영역을 찾기 위해 수평 수직 투영하는 것을 도시하고 있다. (a)는 이진화 영상이고 (b)는 수평 히스토그램 영상이고 (c)는 수직 히스토그램 영상이고 (d)는 손 영역 검출(N1,N2,M1,M2)을 도시하고 있다.
다음으로 손제스춰인식부(130)중 문자인식부(131)에서의 처리과정을 살펴보자. 위에서 설명한 손 영역 검출 방법은 Hand posture를 위한 전처리 단계이다. 본 발명에서는 Hand posture를 이용하여 알파벳 26자를 BP알고리즘(Backpropagation Algorithm)을 적용하여 인식을 시킨다. BP알고리즘이란, 다층 퍼셉트론(Multi Layer Perceptron)에 일반화된 델타규칙(Generalization Delta Rule)을 학습 규칙으로 사용한 감독학습방법의 알고리즘이다. 이 알고리즘은 만일 어떤 신경세포의 활성이 다른 신경세포의 잘못된 출력에 공헌을 하였다면, 두 신경세포 간의 연결 가중치를 그것에 비례하여 조절해 주어야 하며, 이러한 과정은 그 아래에 있는 신경세포들까지 계속된다는 특징을 가지고 있다. 이와 같이 출력층에서 발생한 오류를 아래층으로 역전파 시키므로 오류 역전파 알고리즘이라 한다.
BP알고리즘은 다층 신경회로망으로 구성되어 있다. 다층 신경회로망(Multi neural Network: MNN)은 단층 퍼셉트론(Single Layer Perceptron)을 확장한 형태로써 단층 퍼셉트론의 한계를 극복할 수 있는 우수한 특성을 가지고 있다.
뉴럴 네트워크 입력벡터의 범위를 줄이기 위해 ,첫 번째로 검출된 손 영역 영상의 고유벡터를 뽑는다. 그리고 손 영역을 5*5 조각으로 분리하고, 각각의 조각 안에서 계산된 픽셀들을 카운트하고, 각각의 픽셀 비율을 계산한다. 만약 흰 픽셀의 비율이 영역 안에서 0.1보다 크다면, 상응하는 영역의 고유벡터는 1이 되고, 그렇지 않으면 0이라고 가정할 수 있다. 시스템의 테스트를 위해, 우리는 26개의 손 모양을 사용하였다. 그리고 각각의 테스트 영상들은 5개의 각도를 가진다. 5개의 각도는 도 11에서 결과를 보여준다. 도 11은 5가지 테스트 영상들의 결과이고 (a)는 90도,(b)는 45도,(c)는 135 도,(d)는 0 도,(e)는 180 도이다.
식 (3)은 한 영역 안에서 검은색 픽셀들의 비율을 나타낸 것이다. EV는 손 영역의 이진 영상에서 고유벡터를 말하며, AR은 5*5 조각 중 한 조각의 영역을 나타내며, i와 j는 한 조각 안에 있는 픽셀의 수직과 수평을 나타내며, 흰 픽셀이 하나라도 존재하면 1이 된다. 도 12는 식(3)을 적용한 결과를 보여준다. (a)는 히스토그램의 수평영상을 (b)는 히스토그램의 수직영상을 (c)는 수평 영역 히스토그램에 대한 픽셀을 (d)는 수직 영역 히스토그램에 대한 픽셀을 도시하고 있다.
테스트를 위해서 26개의 손 모양으로부터 10°~170° 범위의 각도에 따른 각각의 영상을 5장씩 생성하여, 130장의 컬러 영상을 데이터베이스로 사용하였다. 도 13은 Hand posture 테스트를 위한 26개의 알파벳 이미지와 테스트 영상을 도시하고 있다. 도 14는 몇 가지 간단한 예를 들어 알파벳을 이용한 문자 조합 과정을 도시하고 있다.
다음으로 손제스춰인식부(130)중 숫자인식부(132)에서의 처리과정을 살펴보자. 본 발명에서는 IPTV의 채널을 변경하기 위한 숫자 인식을 위해서 새로운 방법을 제시한다. 이 방법은 두 단계의 처리과정을 거치게 된다. 첫 번째 단계는, 위에서 소개한 손 영역 검출 방법으로 검출된 손 영역에서 중심점을 찾고, 찾아진 중심점으로부터 최대 크기의 원을 그린다. 원과 중심점은 손 영역을 찾은 후, 손가락과 손가락 사이의 4점을 찾고, 그 4개의 점들을 연결하여 원을 만들고, 만들어진 원의 반지름 값으로 중심점을 찾았다.
두 번째 단계에서는, 원과 중심점을 이용하여 숫자를 인식하는 것이다. 손가락 끝점으로부터 중심점까지 직선을 연결하고, 연결되어진 직선과 원과의 교차점의 개수에 따라서 숫자를 인식하게 된다. 여기에는, 몇 가지의 조건이 따른다. 예를 들어, 인식되는 숫자는 틀리지만 교차점의 개수가 같은 경우와 같은 손 모양이지만 손가락을 구부리는 경우가 있다. 이런 경우에는 교차점만의 개수로만 인식을 하기는 불가능하다. 따라서 손가락과 중심점 사이의 각도, 그리고 손가락의 길이 비율을 비교하여 정확한 인식을 하기 위한 정보로 사용하였다. 도 15에서 손의 인식을 통해 숫자가 인식되는 과정을 도시하고 있다. (a)는 입력영상 (b)는 이진영상 (c)는 손 영역 (d)는 교차점 (e)는 각도/길이 (f)는 결과를 도시하고 있다. 위에서 설명한 숫자 인식 방법을 이용하여, 채널 변경을 위해 몇 가지 간단한 예를 들어 숫자 조합 과정을 도 16에서 도시하고 있다. 도 16은 채널 변경을 위한 숫자의 조합을 도시하고 있다.
다음으로 손제스춰인식부(130)중 채널 및 음량조절부(133)의 처리과정을 살펴보자. 채널 변경과 음량의 높낮이를 제어하기 위한 손동작 인식은 은닉 마르코프 모델(HMM)을 적용시킨다. 은닉 마르코프 모델은 시공간적인 변이를 가진 사건을 모델링 하는데 성공적으로 널리 사용되어 왔으며, 특히 음성인식과 온라인 필기인식 분야에서 성공적으로 응용되어 왔다. 이 기법은 시공간적인 정보를 자연스럽게 모델링 할 수 있으며 학습과 인식을 위해 효과적이고 우수한 알고리즘을 가지고 있기 때문에 여러 분야에서 성공적으로 응용되고 있다.
은닉 마르코프 모델이란 전이(transition)에 의해 연결된 상태(state)들의 모임으로 각 전이는 두 가지 확률의 집합을 표현한다. 하나는 전이를 하기 위해 필요한 전이확률(transition probablity)이고, 다른 하나는 전이가 발생할 때마다 각 출력심볼(output symbol)을 발생시키는 조건부 확률을 나타내는 출력확률(output probability)이다.
도 17, 도 18은 좌우 팔의 동작에 따른 IPTV의 채널 변경 및 음량의 높낮이 제어를 위한 모습을 보여준다. 인식을 위한 팔꿈치와 손의 각도는 180도에서 90도 사이가 된다. 도 17은 음량의 높낮이 제어를 도시하고 있다. (a)는 음량 높음 (b)는 음량 낮음을 의미한다. 도 18은 채널 변경 제어를 도시하고 있다. (a)는 채널 뒤로 변경 (b)는 채널 앞으로 변경을 의미한다.
다음으로 다리제스춰인식부(140)의 처리과정을 설명한다. 게이트, 즉 다리의 위치 및 모양 정보를 이용한 IPTV 제어는 다음과 같다. 영상에서 움직이는 사람 또는 다른 객체를 추출하는 방법은 일반적으로 객체가 없는 배경 영상과 전경 영상과의 차분 값을 이진영상으로 변환하여 사용하며, 이 과정을 움직임 검출(Motion detection)이라 한다. 움직임 검출 결과로 영상의 모든 화소는 동적인(moving) 화소와 정적인(non-moving) 화소로 양분된다.
본 발명에서는 정적인 상태에서 2가지 형태의 다리 모양 정보를 이용하여 IPTV를 제어하게 된다. 왼쪽 다리를 들면 모드 변경 중 비디오 모드, 오른쪽 다리를 들면 인터넷 사용을 위한 모드로 변경된다. 이때, 명령을 주기 위한 조건은 일어선 상태에서 IPTV에 장착된 웹 카메라를 정면으로 보면 다리를 이용하여 명령을 내린다는 의미이다. 이때, 무릎의 각도는 180도에서 90도 사이이다. 도 19에서 명령을 주는 다리의 모습을 보여준다. (a)는 비디오 모드 (b)는 명령을 주기 위한 준비 상태 (c)는 인터넷 사용 모드이다.
이상에서 설명한 내용을 통해 본업에 종사하는 당업자라면 본 발명의 기술사상을 이탈하지 아니하는 범위 내에서 다양한 변경 및 수정이 가능한 것을 알 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 실시 예에 기재된 내용만으로 한정되는 것이 아니라 특허청구범위에 의하여 정해져야 한다.
도 1은 본 발명에 대한 전체적인 흐름을 도시하고 있다
도 2는 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)이 IPTV를 자동제어하는 것을 설명하고 있다.
도 3은 YCbCr 색 모델에서 Cr영역으로 검출한 얼굴영역을 도시하고 있다.
도 4는 Haar-like feature 방법으로 찾아진 얼굴 영역을 도시하고 있다.
도 5는 PCA 알고리즘 적용으로 생성된 고유 얼굴(eigen face)을 도시하고 있다.
도 6은 입술추적 결과를 도시하고 있다.
도 7은 HSI좌표의 모형을 RGB축과 비교하여 도시하고 있다.
도 8은 Hue 값에 의해 검출된 손 영역 이미지를 도시하고 있다. (a)는 원 이미지이고 (b)는 Hue 값으로 찾은 손 영역을 도시하고 있다.
도 9는 손 영역 검출 과정을 도시하고 있다. (a)는 입력 영상이고 (b)는 엣지검출 영상이고 (c)는 손의 후보영역을 도시하고 있다.
도 10은 손 영역을 찾기 위해 수평 수직 투영하는 것을 도시하고 있다. (a)는 이진화 영상이고 (b)는 수평 히스토그램 영상이고 (c)는 수직 히스토그램 영상이고 (d)는 손 영역 검출(N1,N2,M1,M2)을 도시하고 있다.
도 11은 5가지 테스트 영상들의 결과이고 (a)는 90도,(b)는 45도,(c)는 135 도,(d)는 0 도,(e)는 180 도이다.
도 12는 식(3)을 적용한 결과를 보여준다. (a)는 히스토그램의 수평영상을 (b)는 히스토그램의 수직영상을 (c)는 수평 영역 히스토그램에 대한 픽셀을 (d)는 수직 영역 히스토그램에 대한 픽셀을 도시하고 있다.
도 13은 Hand posture 테스트를 위한 26개의 알파벳 이미지와 테스트 영상을 도시하고 있다.
도 14는 몇 가지 간단한 예를 들어 알파벳을 이용한 문자 조합 과정을 도시하고 있다.
도 15에서 손의 인식을 통해 숫자가 인식되는 과정을 도시하고 있다. (a)는 입력영상 (b)는 이진영상 (c)는 손 영역 (d)는 교차점 (e)는 각도/길이 (f)는 결과를 도시하고 있다.
도 16은 채널 변경을 위한 숫자의 조합을 도시하고 있다.
도 17은 음량의 높낮이 제어를 도시하고 있다. (a)는 음량 높음 (b)는 음량 낮음을 의미한다.
도 18은 채널 변경 제어를 도시하고 있다. (a)는 채널 뒤로 변경 (b)는 채널 앞으로 변경을 의미한다.
도 19는 명령을 주는 다리의 모습을 보여준다. (a)는 비디오 모드 (b)는 명령을 주기 위한 준비 상태 (c)는 인터넷 사용 모드이다.
도 20은 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템(100)의 구성도를 도시하고 있다.
도 21은 손제스춰인식부(130)를 상세히 도시하고 있다.
< 도면의 주요 부호에 대한 설명 >
10 : 디스플레이장치
100 : 사용자의 제스춰 정보 인식을 기반으로 하여 디스플레이장치의 동작을 제어하는 시스템
110 : 얼굴영역추출부
120 : 얼굴영역인식부
130 : 손제스춰인식부
131 : 문자인식부
132 : 숫자인식부
133 : 채널 및 음량조절부
140 : 다리제스춰인식부
150 : 촬상수단
160 : 전원제어부