KR19980028900A - 화상 회의 시스템 - Google Patents

화상 회의 시스템 Download PDF

Info

Publication number
KR19980028900A
KR19980028900A KR1019960048090A KR19960048090A KR19980028900A KR 19980028900 A KR19980028900 A KR 19980028900A KR 1019960048090 A KR1019960048090 A KR 1019960048090A KR 19960048090 A KR19960048090 A KR 19960048090A KR 19980028900 A KR19980028900 A KR 19980028900A
Authority
KR
South Korea
Prior art keywords
model
boundary
speaker
talker
tracking
Prior art date
Application number
KR1019960048090A
Other languages
English (en)
Other versions
KR100215206B1 (ko
Inventor
정성학
Original Assignee
배순훈
대우전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 배순훈, 대우전자 주식회사 filed Critical 배순훈
Priority to KR1019960048090A priority Critical patent/KR100215206B1/ko
Publication of KR19980028900A publication Critical patent/KR19980028900A/ko
Application granted granted Critical
Publication of KR100215206B1 publication Critical patent/KR100215206B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body

Abstract

본 발명은 적외선 영상을 이용하여 대화자를 인식한후 이를 추적하는 화상 회의 시스템에 관한 것이다.
본 발명은 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상신호를 입력으로 각각의 모델 얼굴의 윤곽선을 추출하여 인식하는 모델 인식단계; 상기 인식된 하나 또는 그 이상의 모델 영상신호 중에서 하나를 선택하는 모델 선택단계; 카메라를 통해 입력되는 대화자의 적외선 영상신호로부터 대화자 얼굴의 윤곽선을 추출하여 인식하는 대화자 인식단계; 상기 선택된 모델 영상신호의 모델 얼굴의 윤곽선과 상기 인식된 대화자 영상신호의 대화자 얼굴의 윤곽선을 정합시키는 정합단계; 및 상기 정합된 대화자를 추적하여 카메라를 이동시키는 대화자 추적단계에 의해 수행되고, 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상신호와 대화자의 적외선 영상신호를 입력으로 각각의 모델과 대화자의 얼굴의 윤곽선을 추출하여 인식하는 인식수단; 상기 인식수단의 동작을 제어하고 상기 추출된 모델 영상신호와 대화자의 얼굴의 윤곽선을 정합하고 정합된 대화자를 추적하도록 제어하는 CPU; 및 상기 CPU의 제어에 따라 카메라의 방향을 이동시키기 위한 모터드라이버로 구성된다.
따라서 본 발명은 적외선 영상을 이용하여 대화자를 인식한후 이를 추적하는 기능이 있어 화상 회의중 대화자가 이동하더라도 카메라로 추적이 가능하다.

Description

화상 회의 시스템 (VIDEO CONFERENCE SYSTEM )
본 발명은 화상 회의 시스템에 관한 것으로, 특히 대화자 인식 기능을 갖는 화상 회의 시스템에 관한 것이다.
본 발명의 목적은 대화자 인식 및 추적 기능을 갖도록하여 대화자가 카메라 앞에 위치하지 않고 이동하는 경우에도 이를 추적하여 대화자가 자유롭게 이동할 수 있도록 하기 위한 화상 회의 시스템을 제공함에 있다.
본 발명은 화상 회의 시스템에 관한 것으로, 특히 적외선 영상을 이용하여 대화자를 인식한후 이를 추적하는 화상 회의 시스템에 관한 것이다.
일반적으로 화상 회의 시스템은 회의 참석자가 원거리에 있어도 화면을 통해 회의를 진행할 수 있다.
따라서 대화자는 카메라 앞에 위치하여야만 화면을 통해 원거리에 있는 상대방 대화자에게 자신의 모습을 보여줄 수 있었다.
즉, 종래의 화상 회의 시스템은 화상 회의시 대화자가 반드시 카메라 앞에 위치하여야만 하므로 대화자의 이동이 불가능한 문제점이 있었다.
상기 문제점을 개선하기 위한 본 발명은 적외선 영상을 이용하여 대화자를 인식한후 이를 추적하여 대화자의 이동을 자유롭게 하기 위한 화상 회의 시스템을 제공함에 그 목적이 있다.
도 1 은 본 발명에 의한 모델 인식 단계를 나타낸 흐름도
도 2 는 본 발명에 의한 대화자 인식, 정합, 및 추적 단계를 나타낸 흐름도
도 3a 는 도 1 및 도 2 의 경계 추출 단계를 설명하기 위한 도면
도 3b 는 도 1 및 도 2 의 세선화 단계를 설명하기 위한 도면
도 3c 는 도 1 및 도 2 의 직선 근사 단계를 설명하기 위한 도면
도 4 는 도 2 의 추적 단계를 나타낸 세부 흐름도
도 5 는 본 발명에 의한 화상 회의 시스템의 구성도
도면의 주요 부분에 대한 부호의 설명
400 : 적외선 카메라 500 : 인식부
510 : A/D 변환기 520 : 메모리
530 : 경계 추출부 540 : 경계선 방향 산출부
550 : 세선화부 560 : 직선 근사부
570 : 선형 특징 추출부 600 : CPU
610 : ROM 700 : 모터 드라이버
800 : 모터
상기 목적을 달성하기 위해 본 발명에 의한 화상 회의 시스템은 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상 신호를 입력으로 각각의 모델 얼굴의 윤곽선을 추출하여 인식하는 모델 인식 단계; 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 하나를 선택하는 모델 선택 단계; 카메라를 통해 입력되는 대화자의 적외선 영상 신호로부터 대화자 얼굴의 윤곽선을 추출하여 인식하는 대화자 인식 단계; 상기 선택된 모델 영상 신호의 모델 얼굴의 윤곽선과 상기 인식된 대화자 영상 신호의 대화자 얼굴의 윤곽선을 정합시키는 정합 단계; 및 상기 정합된 대화자를 추적하여 카메라를 이동시키는 대화자 추적 단계를 포함하여 수행되고, 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상 신호와 대화자의 적외선 영상 신호를 입력으로 각각의 모델과 대화자의 얼굴의 윤곽선을 추출하여 인식하는 인식 수단; 상기 인식 수단의 동작을 제어하고 상기 추출된 모델 영상 신호와 대화자의 얼굴의 윤곽선을 정합하고 정합된 대화자를 추적하도록 제어하는 CPU; 및 상기 CPU의 제어에 따라 카메라의 방향을 이동시키기 위한 모터 드라이버를 포함하여 구성됨을 특징으로 한다.
이하 첨부한 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
본 발명에 의한 화상 회의 시스템은 도1 및 도2에 도시한 바와 같이 모델 인식 단계(100 내재 107), 모델 선택 단계(200), 대화자 인식 단계(201 내지 207), 정합 단계(208, 209), 대화자 추적 단계(210), 및 모델 변경 단계(211, 212)에 의해 수행된다.
상기 모델 인식 단계(100 내지 107)는 도1에 도시한 바와 같이 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상 신호를 입력으로 각각의 모델 얼굴의 윤곽선을 추출하여 인식하는 것으로, 화상 회의시 인식할 대화자의 적외선 영상에 해당하는 모델 영상 신호를 A/D 변환하여 저장하는 모델 영상 신호 저장 단계(100), 상기 저장된 모델 영상 신호로부터 경계 화소와 경계선 방향을 산출하는 경계 추출 단계(101, 102), 상기 추출된 경계선 방향을 이용하여 상기 추출된 경계 화소를 세선화하는 세선화 단계(103), 상기 세선화된 경계 화소를 따라 가면서 직선 근사하고 직선의 선형 특징을 추출하여 저장하는 직선 선형 특징 추출 단계(104, 105, 106), 및 상기 인식할 다른 대화자의 영상에 해당하는 다른 모델 영상 신호가 있는지 판단하여 있으면 상기 모델 영상 신호 저장 단계(100)로 진행하는 모델 유무 판단 단계(107)에 의해 수행된다.
여기서, 상기 경계 화소는 상기 저장된 모델 영상 신호의 수직 및 수평 방향의 미분값과 설정된 경계선 판별용 문턱치의 비교에 의해 결정되고, 상기 경계선 방향은 상기 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 계산된다.
모델 선택 단계(200)는 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 하나를 선택하는 단계이다.
대화자 인식 단계(201 내지 207)는 도2에 도시한 바와 같이 카메라를 통해 입력되는 대화자의 적외선 영상 신호로부터 대화자 얼굴의 윤곽선을 추출하여 인식하는 단계로, 도2에 도시한 바와 같이 카메라를 통해 입력되는 대화자의 적외선 영상 신호를 A/D 변환하여 저장하는 대화자 영상 신호 저장 단계(201), 상기 저장된 대화자 영상 신호로부터 경계 화소와 경계선 방향을 산출하는 경계 추출 단계(202, 203), 상기 추출된 경계선 방향을 이용하여 상기 추출된 경계 화소를 세선화하는 세선화 단계(204), 및 상기 세선화된 경계 화소를 따라 가면서 직선 근사하고 직선의 선형 특징을 추출하여 저장하는 직선 선형 특징 추출 단계(205, 206, 207)에 의해 수행된다.
여기서, 상기 경계 화소는 상기 저장된 대화자 영상 신호의 수직 및 수평 방향의 미분값과 설정된 경계선 판별용 문턱치의 비교에 의해 결정되고, 경계선 방향은 상기 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 계산된다.
정합 단계(208, 209)는 상기 선택된 모델 영상 신호의 모델 얼굴의 윤곽선과 상기 인식된 대화자 영상 신호의 대화자 얼굴의 윤곽선을 정합시키는 단계이다.
대화자 추적 단계(210)는 상기 정합된 대화자를 추적하여 카메라를 이동시키는 단계로, 도6에 도시한 바와 같이 상기 정합된 대화자가 있는 초기 위치에서 대화자의 얼굴을 포함하는 일정한 크기의 윈도우를 설정하는 윈도우 설정 단계(300), 상기 설정된 윈도우 내의 화소값을 이진화하는 이진화 단계(301), 상기 정합된 대화자의 중심점 추적을 위한 문턱치를 설정하는 문턱치 설정 단계(303), 상기 이진화된 화소값이 설정된 문턱치 보다 큰지 검색하는 이진화 값 검색 단계(303), 상기 이진화 값 검색 결과 이진화 값이 상기 문턱치보다 큰 경우 상기 카메라를 이동시켜 추적을 수행하는 카메라 이동 및 추적 단계(304), 및 상기 카메라 이동 및 추적 단계(304) 수행 도중 대화자의 추적이 불가능한 경우 상기 대화자 인식 단계(201 내지 207)로 진행하여 대화자를 재인식 및 재추적하는 추적 불가능 처리 단계(305, 306)에 의해 수행된다.
모델 변경 단계(201 내지 209)는 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 다른 하나를 선택하는 경우 카메라를 이동하고 상기 카메라 인식 및 정합 단계(201 내지 209)로 진행하는 단계(211, 212)이다.
이와 같이 수행되는 본 발명에 의한 화상 회의 시스템의 상세한 동작 과정을 도1 내지 도5를 참조하여 설명한다.
먼저, 화상 회의에 참석하는 모든 대화자에 해당하는 적외선 모델 영상 신호를 카메라를 통해 취하여 모델의 얼굴 윤곽선을 추출해야 한다.
즉, 모델 인식 단계(100 내지 107)를 수행하여 기준이 되는 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상 신호를 입력으로 각각의 모델 얼굴의 윤곽선을 추출하여 인식하는데, 이를 첨부한 도면을 참조하여 설명한다.
먼저, 화상 회의시 인식할 대화자의 적외선 영상에 해당하는 모델 영상 신호를 적외선 카메라를 통해 취한후 A/D 변환하여 저장한다(100).
적외선 카메라에서 들어오는 신호, 예를 들어 NTSC 신호는 A/D 변환되면 2차원 행렬상에서 지정된 범위내의 값을 가지는 디지탈 영상(I(x, y))이 된다. 이 영상을 메모리에 저장하여 입력 영상으로 사용한다.
이와 같이 모델 영상 신호 저장 단계(100)를 수행한후 상기 저장된 모델 영상 신호로부터 경계 화소와 경계선 방향을 산출하는 경계 추출 단계(101, 102)를 수행한다.
상기 저장된 모델 영상 신호를 수직 및 수평 방향으로 미분하여 수평 및 수직 방향의 미분값(h, v)을 찾아낸후 이 미분값의 크기((h2+ v2)1/2)와 설정된 경계선 판별용 문턱치를 비교하여 경계 화소를 찾아낸다.
2차원 행렬상에서 지정된 범위내의 값을 가지는 디지탈 영상(I(x, y)신호는 아래 식(1) 및 식(2)와 같이 수평 및 수직 방향으로 미분이 이루어진다.
I(x-1, y-1)+I(x-1, y)+I(x-1, y+1)-I(x+1, y-1)-I(x+1, y)-I(x+1, y-1) = h
----- 식(1)
I(x-1, y-1)+I(x, y-1)+I(x+1, y-1)-I(x-1, y+1)-I(x, y+1)-I(x+1, y+1) = v
----- 식(2)
즉, 도3에 도시한 바와 같이 수평 미분은 기준 화소(x, y)를 중심으로 하여 좌측의 화소의 밝기값(A4, A5, A6)과 우측의 화소의 밝기값(A1, A2, A3)의 차를 구하므로써 이루어지고, 수직 미분은 기준 화소(x, y)를 중심으로 하여 상측의 화소의 밝기값(A4, A7, A1)과 하측의 화소의 밝기값(A6, A8, A3)의 차를 구하므로써 이루어진다.
위의 식(1)에 도시한 바와 같이 수평 미분을 수행하여 수평 미분값(h)을 계산하고, 위의 식(2)에 도시한 바와 같이 수직 미분을 수행하여 수직 미분값(v)을 계산한후 이들 미분값(h, v)의 크기((h2+ v2)1/2)를 계산한다. 즉, 수직 및 수평 미분값(h, v)을 각각 제곱하여 가산한후 다시 제곱근을 취해 미분값의 크기((h2+ v2)1/2)를 계산한다.
상기 계산된 미분값의 크기((h2+ v2)1/2)가 미리 설정된 경계선 판별용 문턱치와 비교되어 상기 경계선 판별용 문턱치보다 큰 경우 기준 화소(x, y)가 경계 화소가 된다.
이와 같은 미분값의 크기 및 비교 과정을 모델 영상 신호의 각 화소에 대해 수행하여 한 프레임의 모델 영상 신호내의 모든 경계 화소를 추출해낸다.
이와 같이 경계 화소를 추출하여 경계선을 추출한후에는 경계선 방향을 산출하는데(102), 경계선 방향은 상기 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 계산된다.
즉, 내부의 ROM에 룩업 테이블을 준비하여 놓으면 해당 값(h/v)에 대한 아크탄젠트 결과를 얻을 수 있으므로, 이를 통하여 경계선 방향을 산출한다(102).
이와 같이 경계 화소와 경계선 방향을 추출한후에는 상기 추출된 경계선 방향을 이용하여 상기 추출된 경계 화소를 세선화한다(103).
즉, 미분하여 추출된 경계 화소는 적외선 영상의 특성상 한 화소 굵기가 아니라 2내지 3화소 정도의 굵기이므로, 경계 화소를 세선화하여 보다 정확한 경계 화소를 추출한다.
이를 도4를 참조하여 설명하면 다음과 같다.
경계 화소에 대해 경계선 방향과 90도 되는 화소들을 검사하여 경계 화소의 값이 가장 큰 화소 하나만을 제외하고 나머지를 삭제하여 경계 화소를 제외시킨다.
즉, 도4에 도시한 바와 같이 경계 화소(e)의 경계선 방향(a)과 90도가 되는 방향(b)의 화소들을 검사하여 미분값의 크기(h2+ v2)1/2)가 가장 큰 경계 화소만을 남기고 나머지 경계 화소는 제외시킨다.
이와 같이 세선화 단계(103)를 수행한후에는 직선 선형 특징 추출 단계(104, 105, 106)를 수행하여 상기 세선화된 경계 화소를 따라 가면서 직선 근사하고 직선의 선형 특징을 추출하여 저장한다.
즉, 도5에 도시한 바와 같이 현재 화소(e1)에서 경계 화소(e)를 따라 가면서(Tracing) 직선(l1)을 시작하여 화소(e)와 직선(l1)과의 거리가 일정한 거리 이상이 되면 하나의 직선(l1)을 끝내고 또다른 직선(l2)을 시작하여 직선 근사한다.
이와 같이 경계 화소를 따라 가면서 근사 직선(l1, l2)을 추출해낸후, 이 들 직선의 선형 특징을 추출한다((105). 즉, 추출된 근사 직선이 n개 인 경우, 직선의 선형 특징은 [(직선1, 시작점, 끝점, 길이, 기울기), (직선2, 시작점, 끝점, 길이 기울기), …, (직선n, 기울기, 끝점, 길이 기울기)]로 표현된다.
입력 영상의 얼굴의 윤곽선에서 추출 가능한 직선의 수는 영상에 따라 다르지만 화상 회의에서 한 사람의 얼굴당 추출 가능한 직선의 수(n)는 10에서 20개 정도이다.
이와 같이 모델 영상 신호에서 추출된 선형 특징은 메모리에 저장되어 입력되는 대화자 영상 신호에서 추출된 선형 특징과의 정합에 이용된다.
하나의 모델의 모델 영상 신호에 대해 선형 특징을 추출한후에는 상기 인식할 다른 대화자의 영상에 해당하는 다른 모델 영상 신호가 있는지 판단한다. 이때 참석할 다른 대화자가 있어 다른 모델 영상 신호가 있으면 상기 모델 영상 신호 저장 단계(100)로 진행하여 다른 모델 영상 신호에 대해서도 선형 특징을 추출해낸다. 또한, 모든 모델 영상 신호에 대해 선형 특징을 추출하여 다른 모델 영상 신호가 없는 경우에는 모델 인식 단계를 종료하고 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 하나를 선택하는 모델 선택 단계(200)를 수행한다.
즉, 카메라를 통해 영상 신호가 전달되어야 할 모델을 선택한다.(200).
예를 들면 화상 회의에 참석하는 많은 대화자 중에서 주로 이야기를 하는 하나의 대화자를 선택한다.
이와 같이 모델을 선택한후에는 화상 회의에 참석하는 참석자 중에서 상기 선택된 모델과 동일한 대화자를 찾아내어 추적해야 한다.
따라서 도2에 도시한 바와 같이 카메라를 통해 입력되는 대화자의 적외선 영상 신호로부터 대화자 얼굴의 윤곽선을 추출하여 인식하는 대화자 인식 단계(201 내지 207)를 수행한다.
대화자 인식 단계는 위의 모델 인식 단계와 동일한 방법으로 수행된다.
즉, 도2에 도시한 바와 같이 카메라를 통해 입력되는 대화자의 적외선 영상 신호를 A/D 변환하여 저장하는 대화자 영상 신호 저장 단계(201)를 먼저 수행한후, 상기 저장된 대화자 영상 신호로부터 경계 화소와 경계선 방향을 산출하는 경계 추출 단계(202, 203)를 수행한다.
이때, 추출되는 경계 화소와 경계선 방향은 위의 모델 인식 단계에서 수행된 경계 추출 단계와 동일하게 이루어진다.
즉, 도3에 도시한 바와 같이 A/D 변환되어 2차원 행렬상에서 지정된 범위내의 값을 가지는 대화자의 디지탈 영상 신호(I(x, y))를 위의 식(1)과 식(2)에 따라 수직 및 수평 방향으로 미분하여 수평 및 수직 방향의 미분값(h, v)을 찾아낸후 이 미분값의 크기((h2+ v2)1/2)와 설정된 경계선 판별용 문턱치를 비교하여 경계 화소를 찾아낸다(202).
이와 같이 추출된 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 경계선 방향을 계산한다(203).
또한, 모델 인식 단계와 마찬가지로 상기 산출된 경계선 방향을 이용하여 상기 추출된 경계 화소를 세선화하는 세선화 단계(204)를 도4에 도시한 바와 같이 수행하고, 상기 세선화된 경계 화소를 따라 가면서 직선 근사하고 직선의 선형 특징을 추출하여 저장하는 직선 선형 특징 추출 단계(205, 206, 207)를 도5에 도시한 바와 같이 수행한다.
이와 같이 대화자 영상 신호로부터 추출되어 저장된 대화자의 선형 특징은 상기 모델 영상 신호로부터 추출된후 선택된 모델의 선형 특징과 비교되어 정합 여부가 판단된다.
즉, 위와 같이 선택된 모델 영상 신호의 모델 얼굴의 윤곽선에 대한 선형 특징과 인식된 대화자 영상 신호의 대화자 얼굴의 윤곽선에 대한 선형 특징을 비교하여 정합 여부를 판단하는데 이때 이용되는 방법이 트리 서치(Tree Search) 방법이다.
즉, 입력 영상의 직선에 대해 정합 가능한 모든 모델의 직선을 할당한 다음 다음 식(3)과 같이 특정 값(m)을 계산하여 그값(m)이 가장 작을 때 정합이 이루어졌다고 본다.
n
m = 1/(Σ#(입력 영상 직선 길이i - 모델 직선 길이#(
i
+#(입력 영상 직선 기울기i - 모델 직선 기울기#() --- 식(3)
이와 같이 선택된 모델과의 정합 단계를 수행하여 정합이 이루어지지 않은 경우에는 카메라를 이동시켜 다른 대화자를 선택하고 이 다른 대화자의 대화자 영상 신호를 입력으로 대화자 영상 신호 저장 단계(201)로부터 반복 수행하여 선택된 모델과 동일한 선형 특징을 갖는 대화자를 찾아낸다.
이와 같은 과정의 수행을 통해 모델과 정합이 이루어지는 대화자를 찾아낸후에는 중심점 추적 방법을 통해 추적을 수행하게 된다.
즉, 정합이 이루어지면 대화자에 대한 초기 위치 추정이 가능하므로 이 초기 정보를 이용하여 카메라를 이동시켜 추적시키는데(210), 이를 도6을 참조하여 세부적으로 설명한다.
먼저, 윈도우 설정 단계(301)를 수행하여 상기 정합된 대화자가 있는 초기 위치에서 대화자의 얼굴을 포함하는 일정한 크기의 윈도우를 설정한다.
일반적으로 중심점 추적은 전체 영상을 대상으로하여 수행된다. 그러나 본 발명에서는 인식 기능을 통하여 초기 위치를 알 수 있으므로 초기 위치 근방에 한정하여 추적 기능을 수행한다. 즉, 사람의 얼굴을 포함하는 크기의 창인 윈도우를 설정하여 이 창내에서만 추적 기능을 수행하면 된다.
여기서, 창의 크기는 영상내에 얼굴의 크기를 포함하면서 대화자 인식 단계에서 제외된 다른 사람의 얼굴을 포함하지 않는 크기이면 된다.
이와 같이 윈도우 설정 단계(300)를 수행한후에는 상기 설정된 윈도우 내의 화소값을 이진화하는 이진화 단계(301)를 수행하고, 상기 정합된 대화자의 중심점 추적을 위한 문턱치(Thres)를 설정하는 문턱치 설정 단계(302)를 수행한다.
윈도우내에서 문턱치(Thres)를 설정하면 얼굴 부분을 쉽게 추출할 수 있으므로 문턱치를 설정하여 아래 식(4)에 도시한 바와 같이 이진화값 검색 단계를 수행한다.
I(x, y) = 1 if I(x, y) Thres --- 식(4)
위의 식(4)에서 이진화 값을 검색하여 영상에서의 값이 '1'인 부분을 계속 추적하면 대화자의 추적이 가능해진다. 즉, 초기 인식에 의해 '1'값이 나타낸 부분으로 카메라가 움직이도록 모터를 구동하고 대화자가 움직이게 되면 '1'로 표시된 부분도 같이 이동하게 되면 이 이동 정보를 다시 모터에 전달하여 카메라를 이동시킨다(304).
따라서 창도 카메라와 같이 이동하게 되므로 게속 추적이 가능해진다.
한편, 추적을 위해 카메라가 이동하는 도중에 대상 얼굴의 급격한 이동이나 창안에 2인 이상의 얼굴이 촬영된 경우에는 인식기의 작용을 다시 활성화하여 인식 기능을 거쳐서 추적 대상 얼굴을 다시 인식해야 한다.
즉, 상기 카메라 이동 및 추적 단계(304) 수행 도중 대화자의 추적이 불가능한 경우 상기 대화자 인식 단계(201 내지 207)로 진행하여 대화자를 재인식 및 재추적하는 추적 불가능 처리 단계(305, 306)를 수행한다.
다음으로, 화상 회의 시스템은 도7에 도시한 바와 같이 인식부(500), CPU(600), 및 모터 드라이버(700)로 구성된다.
인식부(500)는 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상 신호와 대화자의 적외선 영상 신호를 입력으로 각각의 모델과 대화자의 얼굴의 윤곽선을 추출하여 인식하는 것으로, 상기 CPU(600)의 제어에 따라 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상 신호와 대화자 영상 신호를 A/D 변환하는 A/D(Analog/Digital) 변환기(510), 상기 CPU(600)의 제어에 따라 상기 A/D 변환기(510)로부터 출력되는 영상 신호를 저장하는 메모리(520), 상기 메모리(520)로부터 출력되는 영상 신호로부터 경계 화소를 추출하는 경계 추출부(530), 상기 경계 추출부(530)에서 추출된 경계 화소를 이용하여 경계선 방향을 산출하는 경계선 방향 산출부(540), 상기 경계선 방향 산출부(540)에서 산출된 경계선 방향을 이용하여 상기 경게 추출부(530)에서 추출된 경계 화소를 세선화하는 세선화부(550), 상기 세선화부(550)에서 세선화된 경계 화소를 따라 가면서 직선 근사하는 직선 근사부(560), 및 상기 직선 근사부(560)에서 출력된 직선의 선형 특징을 추출하여 상기 메모리(520)에 저장하는 직선 선형 특징 추출부(570)로 구성된다.
CPU(600)는 ROM(610)를 포함하여 구성되어 상기 인식부(500)의 동작을 제어하고 상기 추출된 모델 영상 신호와 대화자의 얼굴의 윤곽선을 정합하고 정합된 대화자를 추적하도록 제어한다.
모터 드라이버(700)는 상기 CPU(600)의 제어에 따라 카메라의 방향을 이동시키기 위해 모터(800)를 구동시킨다.
이와 같이 구성되는 본 발명에 의한 화상 회의 시스템의 하드웨어의 동작을 설명한다.
먼저, 적외선 카메라(400)에서의 신호를 메모리에 저장하여 입력 영상을 생성해야 한다. 적외선 카메라에서 들어오는 신호, 예를 들어 NTSC 신호는 A/D 변환기(510)를 거쳐 2차원 행렬상에서 지정된 범위내의 값을 가지는 디지탈 영상(I(x, y)이 된다. 이 영상은 RAM으로 이루어진 메모리(520)에 저장되어 입력 영상으로 사용된다.
디지탈 영상이 메모리(520)에 저장이 되고 나서는 CPU(600)에서 선형 특징 추출부(570)의 동작이 끝날때까지 상기 A/D 변환기(510)에서 메모리(520)에 신호를 저장하는 기능을 오프시켜서 입력 영상이 변하지 않게 한다.
물론 선형 특징 추출부(570)의 선형 특징 추출 동작이 완료되면 다시 새로운 입력 영상을 받아들이도록 A/D 변환기(510)를 온시킨다.
상기 메모리(520)로부터 출력되는 영상 신호(I(x, y)는 경계 화소 추출부(530)에서 미분에 의해 경계 화소가 추출된다. 즉, 위의 식(1)과 식(2)에 의해 도3에 도시한 바와 같이 수평 및 수직 미분이 수행되어 미분값(h, v)이 구해진후 이 미분값의 크기((h2+ v2)1/2)는 다시 계산되고 설정된 경계선 판별용 문턱치와 비교되어 경계 화소를 찾아낸다.
또한, 경계선 방향 산출부(540)에서는 이와 같이 추출된 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 경계선 방향을 산출한다.
세선화부(550)에서는 도4에 도시한 바와 같이 경계선 방향 산출부(540)에서 산출된 경계선 방향과 경계 추출부(530)에서 추출된 경계 화소 중에서 90도 되는 화소들을 검사하여 경계 화소의 값이 가장 큰 화소 하나만을 제외하고 나머지를 삭제하여 경계 화소를 제외시킨다.
이와 같이 세선화부(550)에서 세선화된 경계 화소는 직선 근사부(560)에서 도5에 도시한 바와 같이 경계 화소를 따라 가면서 직선 근사된후 선형 특징 추출부(570)에서 직선의 선형 특징이 추출된다.
직선의 선형 특징은 [(직선1, 시작점, 끝점, 길이, 기울기), (직선2, 시작점, 끝점, 길이 기울기), …, (직선n, 기울기, 끝점, 길이 기울기)]로 표현된다.
이와 같이 추출된 모델에 대한 직선의 선형 특징은 다시 메모리(520)에 저장된다.
하나 또는 그 이상의 대화자의 얼굴을 사전에 적외선 카메라로 촬영해 놓은 모델은 선형 특징이 추출되어 데이터 베이스로 구축된다.
한편, 현재 카메라를 통해 입력되는 대화자의 적외선 영상 신호에 대해서도 위와 같은 과정을 통해 선형 특징이 추출되어야 한다. 즉, 대화자 영상 신호는 A/D 변환기(510)를 통해 메모리(520)에 저장된후, 경계 추출부(530), 경계선 방향 산출부(540), 세선화부(550), 직선 근사부(560), 및 선형 특징 추출부(570)를 거쳐 얼굴 둘레의 윤곽선에 대한 선형 특징이 추출된다.
이와 같이 추출된 선형 특징은 메모리(520)에 저장되고, 이때 다수의 모델중에서 선택된 하나의 모델과 동일한 대화자를 CPU(600)에서 정합을 통해 추출해내고, 추출된 대화자를 중심점 추적 방법을 통해 CPU(600)에서 추적한다.
이상에서 설명한 바와 같이 본 발명에 의한 화상 회의 시스템은 적외선 영상을 이용하여 대화자를 인식한후 이를 추적하는 기능이 있어 화상 회의중 대화자가 이동하더라도 카메라로 추적이 가능하다.

Claims (12)

  1. 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상 신호를 입력으로 각각의 모델 얼굴의 윤곽선을 추출하여 인식하는 모델 인식 단계(100 내지 107);
    상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 하나를 선택하는 모델 선택 단계(200);
    카메라를 통해 입력되는 대화자의 적외선 영상 신호로부터 대화자 얼굴의 윤곽선을 추출하여 인식하는 대화자 인식 단계(201 내지 207);
    상기 선택된 모델 영상 신호의 모델 얼굴의 윤곽선과 상기 인식된 대화자 영상 신호의 대화자 얼굴의 윤곽선을 정합시키는 정합 단계(208, 209); 및
    상기 정합된 대화자를 추적하여 카메라를 이동시키는 대화자 추적 단계(210)를 포함하여 수행됨을 특징으로 하는 화상 회의 시스템.
  2. 제 1 항에 있어서, 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 다른 하나를 선택하는 경우 카메라를 이동하고 상기 카메라 인식 및 정합 단계(201 내지 209)로 진행하는 모델 변경 단계(211, 212)를 더 포함하여 수행됨을 특징으로 하는 화상 회의 시스템.
  3. 제 1 항에 있어서, 상기 모델 인식 단계(100 내지 107)는
    화상 회의시 인식할 대화자의 적외선 영상에 해당하는 모델 영상 신호를 A/D 변환하여 저장하는 모델 영상 신호 저장 단계(100);
    상기 저장된 모델 영상 신호로부터 경계 화소와 경계선 방향을 산출하는 경계 추출 단계(101, 102);
    상기 추출된 경계선 방향을 이용하여 상기 추출된 경계 화소를 세선화하는 세선화 단계(103);
    상기 세선화된 경계 화소를 따라 가면서 직선 근사하고 직선의 선형 특징을 추출하여 저장하는 직선 선형 특징 추출 단계(104, 105, 106); 및
    상기 인식할 다른 대화자의 영상에 해당하는 다른 모델 영상 신호가 있는지 판단하여 있으면 상기 모델 영상 신호 저장 단계(100)로 진행하는 모델 유무 판단 단계(107)를 포함하여 수행됨을 특징으로 하는 화상 회의 시스템.
  4. 제 3 항에 있어서, 상기 경계 화소는
    상기 저장된 모델 영상 신호의 수직 및 수평 방향의 미분값과 설정된 경계선 판별용 문턱치의 비교에 의해 결정됨을 특징으로 하는 화상 회의 시스템.
  5. 제 4 항에 있어서, 상기 경계선 방향은
    상기 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 계산됨을 특징으로 하는 화상 회의 시스템.
  6. 제 1 항에 있어서, 상기 대화자 인식 단계(201 내지 207)는
    카메라를 통해 입력되는 대화자의 적외선 영상 신호를 A/D 변환하여 저장하는 대화자 영상 신호 저장 단계(201);
    상기 저장된 대화자 영상 신호로부터 경계 화소와 경계선 방향을 산출하는 경계 추출 단계(202, 203);
    상기 추출된 경계선 방향을 이용하여 상기 추출된 경계 화소를 세선화하는 세선화 단계(204); 및
    상기 세선화된 경계 화소를 따라 가면서 직선 근사하고 직선의 선형 특징을 추출하여 저장하는 직선 선형 특징 추출 단계(205, 206, 207)에 의해 수행됨을 특징으로 하는 화상 회의 시스템.
  7. 제 6 항에 있어서,상기 경계 화소는
    상기 저장된 대화자 영상 신호의 수직 및 수평 방향의 미분값과 설정된 경계선 판별용 문턱치의 비교에 의해 결정됨을 특징으로 하는 화상 회의 시스템.
  8. 제 7 항에 있어서, 상기 경계선 방향은
    상기 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 계산됨을 특징으로 하는 화상 회의 시스템.
  9. 제 1 항에 있어서, 상기 대화자 추적 단계(210)는
    상기 정합된 대화자가 있는 초기 위치에서 대화자의 얼굴을 포함하는 일정한 크기의 윈도우를 설정하는 윈도우 설정 단계(300);
    상기 설정된 윈도우 내의 화소값을 이진화하는 이진화 단계(301);
    상기 정합된 대화자의 중심점 추적을 위한 문턱치를 설정하는 문턱치 설정 단계(303);
    상기 이진화된 화소값이 설정된 문턱치 보다 큰지 검색하는 이진화 값 검색 단계(303); 및
    상기 이진화 값 검색 결과 이진화 값이 상기 문턱치보다 큰 경우 상기 카메라를 이동시켜 추적을 수행하는 카메라 이동 및 추적 단계(304)를 포함하여 수행됨을 특징으로 하는 화상 회의 시스템.
  10. 제 9 항에 있어서, 상기 추적 단계(210)는
    상기 카메라 이동 및 추적 단계(304) 수행 도중 대화자의 추적이 불가능한 경우 상기 대화자 인식 단계(201 내지 207)로 진행하여 대화자를 재인식 및 재추적하는 추적 불가능 처리 단계(305, 306)를 더 포함하여 수행됨을 특징으로 하는 화상 회의 시스템.
  11. 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상 신호와 대화자의 적외선 영상 신호를 입력으로 각각의 모델과 대화자의 얼굴의 윤곽선을 추출하여 인식하는 인식 수단(500);
    상기 인식 수단(500)의 동작을 제어하고 상기 추출된 모델 영상 신호와 대화자의 얼굴의 윤곽선을 정합하고 정합된 대화자를 추적하도록 제어하는 CPU(600); 및
    상기 CPU(600)의 제어에 따라 카메라의 방향을 이동시키기 위한 모터 드라이버(700)를 포함하여 구성됨을 특징으로 하는 화상 회의 시스템.
  12. 제 11 항에 있어서, 상기 인식 수단(500)은
    상기 CPU(600)의 제어에 따라 화상 회의시 하나 또는 그 이상의 대화자의 적외선 영상에 해당하는 각각의 모델 영상 신호와 대화자 영상 신호를 A/D 변환하는 A/D(Analog/Digital) 변환기(510);
    상기 CPU(600)의 제어에 따라 상기 A/D 변환기(510)로부터 출력되는 영상 신호를 저장하는 메모리(520);
    상기 메모리(520)로부터 출력되는 영상 신호로부터 경계 화소를 추출하는 경계 추출부(530);
    상기 경계 추출부(530)에서 추출된 경계 화소를 이용하여 경계선 방향을 산출하는 경계선 방향 산출부(540);
    상기 경계선 방향 산출부(540)에서 산출된 경계선 방향을 이용하여 상기 경게 추출부(530)에서 추출된 경계 화소를 세선화하는 세선화부(550);
    상기 세선화부(550)에서 세선화된 경계 화소를 따라 가면서 직선 근사하는 직선 근사부(560); 및
    상기 직선 근사부(560)에서 출력된 직선의 선형 특징을 추출하여 상기 메모리(520)에 저장하는 직선 선형 특징 추출부(570)를 포함하여 구성됨을 특징으로 하는 화상 회의 시스템.
KR1019960048090A 1996-10-24 1996-10-24 화상 회의 시스템 KR100215206B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960048090A KR100215206B1 (ko) 1996-10-24 1996-10-24 화상 회의 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960048090A KR100215206B1 (ko) 1996-10-24 1996-10-24 화상 회의 시스템

Publications (2)

Publication Number Publication Date
KR19980028900A true KR19980028900A (ko) 1998-07-15
KR100215206B1 KR100215206B1 (ko) 1999-08-16

Family

ID=19478782

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960048090A KR100215206B1 (ko) 1996-10-24 1996-10-24 화상 회의 시스템

Country Status (1)

Country Link
KR (1) KR100215206B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030085742A (ko) * 2002-05-01 2003-11-07 엘지전자 주식회사 영상통신단말기의 피사체 자동 추적 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030085742A (ko) * 2002-05-01 2003-11-07 엘지전자 주식회사 영상통신단말기의 피사체 자동 추적 방법

Also Published As

Publication number Publication date
KR100215206B1 (ko) 1999-08-16

Similar Documents

Publication Publication Date Title
CN108921782B (zh) 一种图像处理方法、装置及存储介质
US7340100B2 (en) Posture recognition apparatus and autonomous robot
US4975960A (en) Electronic facial tracking and detection system and method and apparatus for automated speech recognition
US7113201B1 (en) Image processing apparatus
US7117157B1 (en) Processing apparatus for determining which person in a group is speaking
US6005609A (en) Method and apparatus for digital correlation object tracker using a shape extraction focalization technique
CN106157956A (zh) 语音识别的方法及装置
EP1186162A2 (en) Multi-modal video target acquisition and re-direction system and method
CN112183334B (zh) 一种基于多模态特征融合的视频深度关系分析方法
KR101034117B1 (ko) 영상에서 관심 영역 지정 및 윤곽선 영상을 이용한 객체 인식 방법 및 장치
CN115131405A (zh) 一种基于多模态信息的发言人跟踪方法及系统
CN110941992A (zh) 微笑表情检测方法、装置、计算机设备及存储介质
CN112507829B (zh) 一种多人视频手语翻译方法及系统
CN109949344A (zh) 一种基于颜色概率目标建议窗口的核相关滤波跟踪方法
JP3774495B2 (ja) 画像情報抽出装置および方法
KR19980028900A (ko) 화상 회의 시스템
Göcke et al. Automatic extraction of lip feature points
JPH0765149A (ja) 人物認識装置
CN113766130B (zh) 视频拍摄方法、电子设备及装置
US11908235B2 (en) Method and device of registering face based on video data, and electronic whiteboard
KR19980035969A (ko) 화상 회의 시스템의 회의자 추적 방법 및 장치
CN114663796A (zh) 一种目标人物持续跟踪方法、装置及系统
Arsic et al. Automatic extraction of geometric lip features with application to multi-modal speaker identification
CN114466179A (zh) 语音与图像同步性的衡量方法及装置
CN114466178A (zh) 语音与图像同步性的衡量方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090504

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee