KR100220836B1 - Speaker tracking method and device for video conference system - Google Patents

Speaker tracking method and device for video conference system Download PDF

Info

Publication number
KR100220836B1
KR100220836B1 KR1019960054437A KR19960054437A KR100220836B1 KR 100220836 B1 KR100220836 B1 KR 100220836B1 KR 1019960054437 A KR1019960054437 A KR 1019960054437A KR 19960054437 A KR19960054437 A KR 19960054437A KR 100220836 B1 KR100220836 B1 KR 100220836B1
Authority
KR
South Korea
Prior art keywords
model
boundary
extracting
face
conference
Prior art date
Application number
KR1019960054437A
Other languages
Korean (ko)
Other versions
KR19980035969A (en
Inventor
정성학
Original Assignee
전주범
대우전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전주범, 대우전자주식회사 filed Critical 전주범
Priority to KR1019960054437A priority Critical patent/KR100220836B1/en
Publication of KR19980035969A publication Critical patent/KR19980035969A/en
Application granted granted Critical
Publication of KR100220836B1 publication Critical patent/KR100220836B1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 화상 회의 시스템에 있어서, 적외선 영상을 이용하여 회의자를 인식한후 이를 추적하는 회의자 추적 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for tracking a sister after recognizing a singer using an infrared image in a video conference system.

본 발명은 모델과 회의자 영상 신호로 부터 추출된 경계 화소를 이용하여 각각의 모델의 얼굴을 데이타 베이스화하고 회의자 얼굴도 모델의 얼굴 추출 방법과 동일한 방법으로 추출하여 정합한후 회의시 중심점 추적 방법을 통해 추적한다.In the present invention, the faces of each model are databased by using the boundary pixels extracted from the model and the sister image signal, and the face image of the sister is extracted and matched in the same manner as the face extraction method of the model, ≪ / RTI >

따라서 본 발명은 경계 화소 및 방향을 이용하여 폐곡선을 추출하여 회의자를 인식한후 이를 추적하는 기능이 있어 화상 회의중 회의자가 이동하더라도 카메라로 추적이 가능하다.Accordingly, the present invention has a function of extracting a closed curve by using boundary pixels and directions and recognizing the scepter and then tracking the scepter, so that even if the scepter moves during the videoconference, it can be traced by the camera.

Description

화상 회의 시스템의 회의자 추적 방법 및 장치 (Speaker Tracking Method and Device for Video Conference System)A method and apparatus for tracking a delegate in a video conference system (Speaker Tracking Method and Device for Video Conference System)

본 발명은 화상 회의 시스템에 있어서, 적외선 영상을 이용하여 회의자를 인식한후 이를 추적하는 회의자 추적 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for tracking a sister after recognizing a singer using an infrared image in a video conference system.

일반적으로 화상 회의 시스템은 회의 참석자가 원거리에 있어도 화면을 통해 회의를 진행할 수 있다.In general, a video conferencing system allows a conference attendee to stay on the screen, even if they are at a distance.

따라서 회의자는 카메라 앞에 위치하여야만 화면을 통해 원거리에 있는 상대방 회의자에게 자신의 모습을 보여줄 수 있었다.Therefore, the conference person was required to be in front of the camera so that he could show his / her appearance to the remote party through the screen.

즉, 종래의 화상 회의 시스템은 화상 회의시 회의자가 반드시 카메라 앞에 위치하여야만 하므로 회의자의 이동이 불가능한 문제점이 있었다.That is, the conventional video conferencing system has a problem that the conference person can not move because the conference person must be located in front of the camera in the video conference.

상기 문제점을 개선하기 위한 본 발명은 화상 회의 시스템에 있어서, 적외선 영상을 이용하여 회의자를 인식한후 이를 추적하여 회의자의 이동을 자유롭게 하기 위한 회의자 추적 방법 및 장치를 제공함에 그 목적이 있다.SUMMARY OF THE INVENTION It is an object of the present invention to provide a method and apparatus for tracking a skeeter in a video conferencing system for recognizing a singer using an infrared image and tracking the singer to freely move the singer.

도1은 본 발명에 의한 모델 처리 단계를 나타낸 흐름도1 is a flowchart showing a model processing step according to the present invention.

도2는 본 발명에 의한 회의자 인식, 정합, 및 추적 단계를 나타낸 흐름도FIG. 2 is a flow chart illustrating the skeiner recognition, matching, and tracking steps according to the present invention.

도3a, 도3b, 도3c는 도1 및 도2의 경계 화소 및 방향 추출 단계를 설명하기FIGS. 3A, 3B and 3C illustrate the boundary pixels and direction extraction steps of FIGS. 1 and 2

위한 도면Drawings for

도4 및 도 5는 도1 및 도2의 폐곡선 추출 단계를 설명하기 위한 도면Figs. 4 and 5 are views for explaining the closed curve extracting steps of Figs. 1 and 2

도6은 도2의 정합 단계를 설명하기 위한 도면Fig. 6 is a view for explaining the matching step of Fig. 2

도7은 도2의 추적 단계를 나타낸 세부 흐름도FIG. 7 is a detailed flowchart showing the tracking step of FIG.

도8은 본 발명에 의한 회의자 추적 장치의 구성도FIG. 8 is a block diagram of a skeiner tracking device according to the present invention.

* 도면의 주요부분에 대한 부호의 설명DESCRIPTION OF THE REFERENCE NUMERALS

300 : 적외선 카메라 400 : 모터부300: infrared camera 400: motor unit

410 : 모터 420 : 모터 드라이버410: motor 420: motor driver

500 : 제어부 600 : 영상 저장부500: control unit 600: image storage unit

610 : A/D 변환부 510,620 : 메모리610: A / D conversion section 510, 620: Memory

700 : 인식부 710 : 경계 화소 추출부700: recognition unit 710: boundary pixel extraction unit

720 : 경계 방향 추출부 730 : 폐곡선 추출부720: boundary direction extracting unit 730: closed curve extracting unit

800 : 초기 위치 결정부 900 : 추적기800: initial positioning unit 900: tracker

상기 목적을 달성하기 위해 본 발명에 의한 화상 회의 시스템의 회의자 추적 방법은 화상 회의시 하나 또는 그 이상의 회의자 영상에 해당하는 모델 영상 신호를 입력으로 추출된 경계 화소를 이용하여 각각의 모델 얼굴에 해당하는 폐곡선을 추출하여 모델 얼굴을 인식하는 모델 처리 단계; 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 하나를 선택하는 모델 선택 단계; 카메라를 통해 입력되는 회의자 영상 신호를 입력으로 추출된 경계 화소를 이용하여 회의자 얼굴에 해당하는 폐곡선을 추출하여 회의자 얼굴을 인식하는 회의자 영상 처리 단계; 상기 선택된 모델 얼굴의 폐곡선과 상기 인식된 회의자 얼굴의 폐곡선을 정합시키는 정합 단계; 상기 정합된 회의자를 추적하여 카메라를 이동시키는 회의자 추적 단계; 및 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 다른 하나를 선택하는 경우 정합 단계로 진행하는 모델 변경 단계에 의해 수행됨을 특징으로 한다.In order to accomplish the above object, a method for tracking a skeiner of a video conference system according to the present invention is a method for tracking a singer in a video conference using a boundary pixel extracted by inputting a model video signal corresponding to one or more sceiver images, A model processing step of extracting a corresponding closed curve to recognize a model face; A model selection step of selecting one of the recognized one or more model image signals; A conference person image processing step of recognizing a conference person's face by extracting a closed curve corresponding to the conference person's face using the extracted boundary pixels input through the camera; A matching step of matching a closed curve of the selected model face with a closed curve of the recognized sister face; Tracking the skeptics to move the camera; And a model changing step of proceeding to a matching step when the other one of the recognized one or more model video signals is selected.

또한, 상기 목적을 달성하기 위해 본 발명에 의한 화상 회의 시스템의 회의자 추적 장치는 화상 회의시 하나 또는 그 이상의 회의자의 영상에 해당하는 각각의 모델과 회의자의 영상 신호를 A/D 변환하여 저장하는 영상 저장 수단; 상기 영상 저장 수단으로 부터 출력되는 모델과 회의자 영상 신호를 입력으로 추출된 경계 화소를 이용하여 각각의 모델과 회의자의 얼굴에 해당하는 폐곡선을 추출하여 모델 얼굴을 인식하는 인식 수단; 상기 영상 저장 수단과 인식 수단의 동작을 제어하고 상기 인식 수단에서 인식된 모델과 회의자 얼굴의 윤곽선을 정합하고 정합된 회의자를 추적하도록 제어하는 제어 수단; 상기 제어 수단의 제어에 따라 상기 정합된 회의자가 있는 초기 위치에서 일정한 크기의 윈도우를 설정하는 초기 위치 결정 수단; 및 상기 제어 수단의 제어에 따라 상기 초기 위치 결정 수단의 출력을 입력으로 상기 정합된 회의자를 추적하는 추적 수단으로 구성됨을 특징으로 한다.In order to achieve the above object, a sidenor tracking device of a video conferencing system according to the present invention is a device for tracking a video signal of each model and a sketcher corresponding to one or more video images of a skeiner during a video conference, Image storage means; A recognizing means for recognizing a model face by extracting a closed curve corresponding to each model and a face of a skeeter using the model outputted from the image storing means and the boundary pixels extracted by inputting the sketcher image signal; Control means for controlling the operation of the image storage means and the recognizing means, for matching the outline of the sister face of the model recognized by the recognizing means, and for tracking the matching sister; Initial position determining means for setting a window of a predetermined size at an initial position in which the matched conference is controlled by the control means; And tracking means for tracking the matched sketch by receiving the output of the initial positioning means under the control of the control means.

이하 첨부한 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명에 의한 화상 회의 시스템의 회의자 추적 방법은 도1 및 도2에 도시한 바와 같이 모델 처리 단계(100 내지 105), 모델 선택 단계(201), 회의자 영상 처리 단계(202, 206), 정합 단계(207), 회의자 추적 단계(208), 및 모델 변경 단계(210)에 의해 수행된다.1 and 2, a method for tracking a sister in a video conference system according to the present invention includes model processing steps 100 to 105, a model selection step 201, a singer image processing step 202 and 206, A matching step 207, a skeptic tracking step 208, and a model changing step 210.

상기 모델 처리 단계(100 내지 105)에서는 화상 회의시 하나 또는 그 이상의 회의자 영상에 해당하는 모델 영상 신호를 입력으로 추출된 경계 화소를 이용하여 각각의 모델 얼굴에 해당하는 폐곡선을 추출하여 모델 얼굴을 인식하며, 화상 회의시 인식할 회의자의 적외선 영상에 해당하는 모델 영상 신호를 A/D 변환하여 저장하는 모델 영상 신호 저장 단계(100), 상기 저장된 모델 영상 신호로부터 경계 화소를 추출하는 경계 화소 추출 단계(101), 상기 추출된 경계 화소를 이용하여 경계 방향을 추출하고 상기 모델 영상 신호의 각 화소의 밝기값과 주변 화소의 밝기값의 평균을 비교하여 상기 경계 방향에 벡터를 첨가하는 경계 방향 추출 단계(102), 상기 모델의 수에 따라 상기 모델 영상 신호의 각 화소중에서 밝기값이 큰 경계 화소로 부터 상기 추출된 경계 방향에 따라 이동하면서 폐곡선을 추출하는 폐곡선 추출 단계(103, 105), 및 상기 추출된 폐곡선의 내부를 모델 얼굴로 인식하여 저장하는 모델 얼굴 저장 단계(104)에 의해 수행된다.The model processing steps 100 to 105 extract a closed curve corresponding to each model face using the extracted boundary pixels by inputting a model image signal corresponding to one or more images of a conference person during a video conference, A model image signal storing step 100 for A / D converting and storing a model image signal corresponding to an infrared image of a piconet to be recognized at the time of a video conference, a boundary pixel extracting step for extracting a boundary pixel from the stored model image signal, Extracting a boundary direction using the extracted boundary pixels, comparing a brightness value of each pixel of the model video signal with a brightness value of surrounding pixels, and adding a vector to the boundary direction, (102), a boundary pixel having a larger brightness value among the pixels of the model video signal according to the number of the models, A closed curve extracting step (103, 105) for extracting a closed curve while moving along the direction, and a model face storing step (104) for recognizing and storing the inside of the extracted closed curve as a model face.

상기 모델 선택 단계(201)에서는 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 하나를 선택한다.In the model selection step 201, one of the recognized one or more model video signals is selected.

상기 회의자 영상 처리 단계(202 내지 206)에서는 카메라를 통해 입력되는 회의자 영상 신호를 입력으로 추출된 경계 화소를 이용하여 회의자 얼굴에 해당하는 폐곡선을 추출하여 회의자 얼굴을 인식하며, 카메라를 통해 입력되는 회의자 영상 신호를 A/D 변환하여 저장하는 회의자 영상 신호 저장 단계(202), 상기 저장된 회의자 영상 신호로부터 경계 화소를 추출하는 경계 화소 추출 단계(203), 상기 추출된 경계 화소를 이용하여 경계 방향을 추출하고 상기 회의자 영상 신호의 각 화소의 밝기값과 주변 화소의 밝기값의 평균을 비교하여 상기 경계 방향에 벡터를 첨가하는 경계 방향 추출 단계(204), 상기 회의자의 수에 따라 상기 회의자 영상 신호의 각 화소중에서 밝기값이 큰 경계 화소로 부터 상기 추출된 경계 방향에 따라 이동하면서 폐곡선을 추출하는 폐곡선 추출 단계(205), 및 상기 추출된 폐곡선의 내부를 회의자 얼굴로 인식하여 저장하는 회의자 얼굴 저장 단계(206)에 의해 수행된다.In the conference person image processing steps 202 to 206, a conference person's face is recognized by extracting a closed curve corresponding to the conference person's face using the extracted boundary pixels inputted through the camera, A mask image signal storing step 202 for A / D converting the mask image signal input through the mask image signal storing unit 202, a boundary pixel extracting step 203 for extracting a boundary pixel from the stored mask image signal, A boundary direction extracting step (204) of extracting a boundary direction by using the boundary direction, comparing the brightness value of each pixel of the conference video signal with an average of brightness values of surrounding pixels and adding a vector to the boundary direction, Extracts a closed curve while moving along the extracted boundary direction from a boundary pixel having a larger brightness value among the pixels of the conference video signal A closed curve extracting step 205, and a delegate face storing step 206 for storing the inside of the extracted closed curve as a delegate face.

여기서, 상기 경계 화소는 상기 저장된 모델 영상 신호의 수직 및 수평 방향의 미분값과 설정된 경계선 판별용 문턱치의 비교에 의해 결정되고, 상기 경계 방향은 상기 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 계산된다.Wherein the boundary pixels are determined by comparing vertical and horizontal differential values of the stored model video signal with a threshold value for setting a boundary, and the boundary direction is determined by comparing arc tangents of vertical and horizontal differential values of the boundary pixels, Value (aran (h / v)).

상기 정합 단계(207)에서는 상기 선택된 모델 얼굴의 폐곡선과 상기 인식된 회의자 얼굴의 폐곡선을 정합시킨다.In the matching step 207, the closed curve of the selected model face is matched with the closed curve of the recognized sister face.

상기 회의자 추적 단계(208)에서는 상기 정합된 회의자를 추적하여 카메라를 이동시키며, 상기 정합된 회의자가 있는 초기 위치에서 회의자의 얼굴을 포함하는 일정한 크기의 윈도우를 설정하는 윈도우 설정 단계(300), 상기 설정된 윈도우 내의 화소값을 이진화하는 이진화 단계(301), 상기 정합된 회의자의 중심점 추적을 위한 문턱치를 설정하는 문턱치 설정 단계(302), 상기 이진화된 화소값이 설정된 문턱치 보다 큰지 검색하는 이진화 값 검색 단계(303), 및 상기 이진화 값 검색 결과 이진화 값이 상기 문턱치보다 큰 경우 상기 카메라를 이동시켜 추적을 수행하는 카메라 이동 및 추적 단계(304)에 의해 수행된다.In the step of tracking the delegate, the step of setting a window 300 for tracking the matched delegate to move the camera, and setting a window having a predetermined size including the delegate's face at the initial position with the matched delegate, A binarization step of binarizing the pixel values in the set window, a threshold setting step of setting a threshold value for tracking the center point of the matched spermator, a binarization value search step of searching the binarized pixel value to find whether the binarized pixel value is greater than a predetermined threshold value, And a camera movement and tracking step (step 304) of moving the camera and performing tracking if the binarized value is greater than the threshold value (step 303).

상기 모델 변경 단계(210)에서는 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 다른 하나를 선택하는 경우 정합 단계(207)로 진행한다.In the model changing step 210, when the other one of the recognized one or more model video signals is selected, the process proceeds to the matching step 207.

이와 같이 수행되는 본 발명에 의한 화상 회의 시스템의 상세한 동작 과정을 첨부한 도면을 참조하여 설명한다.The detailed operation of the video conferencing system according to the present invention will be described with reference to the accompanying drawings.

먼저, 화상 회의에 참석하는 모든 회의자에 해당하는 적외선 모델 영상 신호를 카메라를 통해 취하여 모델의 얼굴 모양을 추출해야 한다.First, the infrared model video signal corresponding to all the meeting persons attending the video conference should be taken through the camera to extract the face shape of the model.

즉, 모델 처리 단계(100 내지 105)를 수행하여 기준이 되는 하나 또는 그 이상의 회의자의 영상에 해당하는 각각의 모델 영상 신호를 입력으로 각각의 모델 얼굴의 윤곽선을 추출하여 인식하는데, 이를 첨부한 도면을 참조하여 설명한다.That is, the model processing steps 100 to 105 are performed to extract and recognize the outline of each model face by inputting respective model image signals corresponding to images of one or more delegates as a reference, .

먼저, 화상 회의시 인식할 회의자의 영상에 해당하는 모델 영상 신호를 적외선 카메라를 통해 취한후 A/D 변환하여 저장한다(100).First, a model image signal corresponding to an image of a conference person to be recognized at the time of a video conference is taken through an infrared camera, A / D converted, and stored (100).

적외선 카메라에서 들어오는 신호, 예를 들어 NTSC 신호는 A/D 변환되면 2차원 행렬상에서 지정된 범위내의 값을 가지는 디지탈 영상(I(x, y))이 된다. 이 영상을 메모리에 저장하여 입력 영상으로 사용한다.A signal received from an infrared camera, for example, an NTSC signal, is converted into a digital image I (x, y) having a value within a specified range on a two-dimensional matrix after A / D conversion. This image is stored in memory and used as input image.

이와 같이 모델 영상 신호 저장 단계(100)를 수행한후 상기 저장된 모델 영상 신호로부터 경계 화소를 추출하는 경계 화소 추출 단계(101)를 수행한다.After the model image signal storage step 100 is performed, a boundary pixel extraction step 101 for extracting boundary pixels from the stored model image signal is performed.

상기 저장된 모델 영상 신호를 수직 및 수평 방향으로 미분하여 수평 및 수직 방향의 미분값(h, v)을 찾아낸후 이 미분값의 크기((h2+ v2)1/2)와 설정된 경계선 판별용 문턱치를 비교하여 경계 화소를 찾아낸다.(H, v) in the horizontal and vertical directions by differentiating the stored model video signal in the vertical and horizontal directions, and then calculates the difference (h 2 + v 2 ) 1/2 of the differential value The boundary pixels are found by comparing threshold values.

2차원 행렬상에서 지정된 범위내의 값을 가지는 디지탈 영상(I(x, y)신호는 아래 식(1) 및 식(2)와 같이 수평 및 수직 방향으로 미분이 이루어진다.A digital image I (x, y) signal having a value within a specified range on a two-dimensional matrix is differentiated in the horizontal and vertical directions as shown in the following equations (1) and (2).

[식 1][Formula 1]

I(x-1, y-1)+I(x-1, y)+I(x-1, y+1)-I(x+1, y-1)-I(x+1, y)-I(x+1, y-1) = hI (x + 1, y-1) + I (x-1, y) + I -I (x + 1, y-1) = h

[식 2][Formula 2]

I(x-1, y-1)+I(x, y-1)+I(x+1, y-1)-I(x-1, y+1)-I(x, y+1)-I(x+1, y+1) = vI (x, y + 1) -I (x, y + 1) -I (x + 1, y + 1) = v

즉, 도 3a에 도시한 바와 같이 수평 미분은 기준 화소(x, y)를 중심으로 하여 좌측의 화소의 밝기값(A4, A5, A6)과 우측의 화소의 밝기값(A1, A2, A3)의 차를 구하므로써 이루어지고, 수직 미분은 기준 화소(x, y)를 중심으로 하여 상측의 화소의 밝기값(A4, A7, A1)과 하측의 화소의 밝기값(A6, A8, A3)의 차를 구하므로써 이루어진다.That is, as shown in FIG. 3A, the horizontal differential includes brightness values A4, A5, and A6 of the left pixel and brightness values A1, A2, and A3 of the right pixel with the reference pixel x, A7 and A1 on the upper side and the brightness values A6, A8 and A3 on the lower side are centered on the reference pixel x and y, It is done by retrieving the car.

위의 식(1)에 도시한 바와 같이 수평 미분을 수행하여 수평 미분값(h)을 계산하고, 위의 식(2)에 도시한 바와 같이 수직 미분을 수행하여 수직 미분값(v)을 계산한후 이들 미분값(h, v)의 크기((h2+ v2)1/2)를 계산한다. 즉, 수직 및 수평 미분값(h, v)을 각각 제곱하여 가산한후 다시 제곱근을 취해 미분값의 크기((h2+ v2)1/2)를 계산한다.As shown in the above equation (1), the horizontal differential value is calculated to calculate the horizontal differential value h and the vertical differential value is calculated as shown in the above equation (2) to calculate the vertical differential value (v) (H 2, v 2 ) 1/2 ) of the differential values (h, v). That is, the magnitude ((h 2 + v 2 ) 1/2 ) of the differential value is calculated by squaring and adding the vertical and horizontal differential values (h, v), and then taking the square root again.

상기 계산된 미분값의 크기((h2+ v2)1/2)가 미리 설정된 경계선 판별용 문턱치와 비교되어 상기 경계선 판별용 문턱치보다 큰 경우 기준 화소(A(x, y))가 경계 화소가 된다.When the magnitude ((h 2 + v 2 ) 1/2 ) of the calculated differential value is compared with a threshold value for determining a boundary and is larger than the threshold value for threshold value determination, the reference pixel A (x, y) .

이와 같은 미분값의 크기 및 비교 과정을 모델 영상 신호의 각 화소에 대해 수행하여 한 프레임의 모델 영상 신호내의 모든 경계 화소를 추출해낸다.The size of the differential value and the comparison process are performed for each pixel of the model video signal to extract all boundary pixels in the model video signal of one frame.

이와 같이 경계 화소를 추출한후에는 경계 방향을 산출하는데(102), 경계 방향은 상기 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 계산된다.After extracting the boundary pixels, the boundary direction is calculated (102), and the boundary direction is calculated as the arctangent value (aran (h / v)) of the differential values in the vertical and horizontal directions of the boundary pixels.

이를 위해 내부의 ROM에 룩업 테이블을 준비하여 놓으면 해당 값(h/v)에 대한 아크탄젠트 결과를 얻을 수 있으므로, 이를 통하여 경계 방향을 산출할 수 있다(102). 이때, 계산된 아크 탄젠트 값(atan(h,v))은 -180도에서 180도까지의 값을 가질 수 있으므로 이를 8단계로 나눈다. 즉, 도 3b에 도시한 바와 같이 경계의 방향에 따라 (x방향,y방향)으로 각각(-1,-1), (-1,0), (-1,1), (0,1), (0,-1), (1,-1), (1,0), (1,1)의 8가지를 가지게 된다.For this purpose, if a lookup table is prepared in the internal ROM, an arctangent result for the corresponding value (h / v) can be obtained, so that the boundary direction can be calculated through this. At this time, the calculated arc tangent value (atan (h, v)) has a value ranging from -180 degrees to 180 degrees, so it is divided into 8 steps. (-1, -1), (-1,0), (-1,1), (0,1), and (0,1) in the , (0, -1), (1, -1), (1,0), and (1,1).

한편, z성분은 도 3c에 도시한 바와 같이 현재 화소의 밝기값과 주변 8개 회소의 밝기값의 평균과의 비교에 의해서 '-1' 또는 '1'로 결정된다. 즉, 현화소의 밝기값이 주변 8개 화소의 평균값보다 크면 x, y 방향에 수정을 가하여 하향 벡터를 첨가하고, 현화소의 밝기값이 주변 8개 화소의 평균값보다 작으면 x, y 방향에 수정을 가하여 상향 벡터를 첨가한다. 다시말해서, 현화소의 밝기값이 주변 8개 화소의 평균값보다 크면 x, y 방향에 수정을 가하여 z성분이 '-1'이 되고, 현화소의 밝기값이 주변 8개 화소의 평균값보다 작으면 x, y 방향에 수정을 가하여 z성분이 '1'이 되게 한다.On the other hand, the z component is determined as '-1' or '1' by comparing the brightness value of the current pixel with the average brightness value of the surrounding eight pixels as shown in FIG. 3C. That is, if the brightness value of the current pixel is larger than the average value of the surrounding eight pixels, the downward vector is added by modifying the x and y directions. If the brightness value of the current pixel is smaller than the average value of the surrounding eight pixels, Modification is applied and an up vector is added. In other words, if the brightness value of the current pixel is larger than the average value of the surrounding eight pixels, the z component is corrected to -1 in the x and y directions, and if the brightness value of the current pixel is smaller than the average value of the surrounding eight pixels Modify the x and y directions so that the z component is '1'.

이와 같이 경계 방향 추출 단계(102)를 수행한후에는 폐곡선 추출 단계(103)를 수행하여 모델 얼굴을 추출해낸다.After the boundary direction extraction step 102 is performed, the closed curve extraction step 103 is performed to extract the model face.

도 4 에 도시한 바와 같이 밝기값이 큰 경계 화소, 즉 밝기값이 상위 1/10 이상에 포함되는 경계 화소에서 출발하여 상기 추출된 경계 방향인 x,y,z 방향에 따라서 이동하고, 이동 궤적이 폐곡선을 형성하면 회의자의 얼굴이 추출되는 것이다.As shown in FIG. 4, a boundary pixel having a large brightness value, that is, a boundary pixel having a brightness value higher than 1/10, moves along the extracted boundary direction x, y, and z, When this closed curve is formed, the face of the delegate is extracted.

한편, 폐곡선이 형성되지 않으면 다시 밝기값이 상위 1/10 이상에 포함되는 경계 화소를 선택하여 폐곡선을 추적하게 된다.On the other hand, if no closed curve is formed, a boundary pixel whose brightness value is included in the upper 1/10 or more is selected to track the closed curve.

폐곡선이 형성되면 폐곡선의 내부가 올굴 부분이 되며 이 부분에 대해 화소값(I(x,y))을 '1'로 세팅한다.When the closed curve is formed, the inside of the closed curve becomes the corner portion, and the pixel value I (x, y) is set to '1' for this portion.

이때, 화소값(I(x,y))이 '1'이 아닌 출발 화소가 존재하지 않으면 위의 과정을 종료한다. 즉, 타모델이 존재하지 않으면 위의 폐곡선 추출 단계를 종료한다.At this time, if there is no starting pixel other than the pixel value I (x, y) '1', the above process is terminated. In other words, if there is no other model, the above closed curve extraction step ends.

이와 같이 모델 영상 신호에서 추출된 모델의 얼굴은 메모리에 저장되어 입력되는 회의자 영상 신호에서 추출된 회의자의 얼굴과의 정합에 이용된다.Thus, the face of the model extracted from the model image signal is used for matching with the face of the skeeter extracted from the singer image signal stored in the memory.

모든 모델 영상 신호에 대해 선형 특징을 추출하여 다른 모델 영상 신호가 없는 경우에는 모델 처리 단계를 종료하고 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 하나를 선택하는 모델 선택 단계(201)를 수행한다.A model selection step (201) of extracting a linear feature for all the model video signals and terminating the model processing step when there is no other model video signal and selecting one of the recognized one or more model video signals.

즉, 카메라를 통해 영상 신호가 전달되어야 할 모델을 선택한다(201).That is, a model to which a video signal is to be transmitted is selected through a camera (201).

예를 들면 화상 회의에 참석하는 많은 회의자 중에서 주로 이야기를 하는 하나의 회의자를 선택한다.For example, from among many conferences attending a videoconference, a chairman who mainly talks is selected.

카메라를 통해 입력되는 회의자의 영상 신호로부터 회의자 얼굴의 윤곽선을 추출하여 인식하는 회의자 영상처리 단계(202 내지 206)를 수행한다.A conference person image processing step (202 to 206) for extracting and recognizing the outline of a sister face from a video signal of a conference person inputted through a camera is performed.

회의자 영상 처리단계는 위의 모델 처리 단계와 동일한 방법으로 수행된다.The process of image processing of the conference person is performed in the same way as the above model processing step.

즉, 카메라를 통해 입력되는 회의자 영상 신호를 A/D 변환하여 저장하고(202), 상기 저장된 회의자 영상 신호로부터 경계 화소를 추출하고(203), 상기 추출된 경계 화소를 이용하여 경계 방향을 추출하고 상기 회의자 영상 신호의 각 화소의 밝기값과 주변 화소의 밝기값의 평균을 비교하여 상기 경계 방향에 벡터를 첨가하고(204), 상기 회의자의 수에 따라 상기 회의자 영상 신호의 각 화소중에서 밝기값이 큰 경계 화소로 부터 상기 추출된 경계 방향에 따라 이동하면서 폐곡선을 추출하고(205), 상기 추출된 폐곡선의 내부를 회의자 얼굴로 인식하여 저장한다(206).That is, A / D conversion of a conference image signal input through a camera is performed (202), boundary pixels are extracted from the stored conference image signals (203), and boundary directions are extracted using the extracted boundary pixels (204) a vector is added to the boundary direction by comparing a brightness value of each pixel of the conference video signal with an average of brightness values of neighboring pixels, and a vector is added to each pixel of the conference video signal (205). The inside of the extracted closed curve is recognized as a face of the skein and stored (206).

이때 도 5에 도시한 바와 같이 추출된 폐곡선은 회의자의 수에 따라 여러개가 될 수 있다.At this time, as shown in FIG. 5, the extracted closed curves can be several according to the number of the skeptics.

이와 같이 회의자 영상 신호로부터 추출되어 저장된 다수의 회의자의 얼굴은 도 6에 도시한 바와 같이 상기 모델 영상 신호로부터 추출되고 선택된 모델의 얼굴과 비교되어 정합 여부가 판단된다(207). 이때 정합을 판단하기 위해서 상관도 계산이 사용된다.As shown in FIG. 6, the faces of the plurality of skeiners extracted from the slave video signal are compared with the faces of the selected model extracted from the model video signal to determine whether or not they are matched (207). Correlation calculations are used to determine matching.

선택된 모델과 다수의 회의자 얼굴의 상관도를 계산하기 위해서는 사용할 상관 함수를 결정해야 한다. 이러한 상관도 계산을 위한 상관 함수로는 아래 (식 3), (식 4), (식 5)에 나타낸 바와 같이 NCCF(Normalized Cross Correlation Function), MSE(Mean Square Error), 및 MAE(Mean Absolute Error)가 있다.In order to calculate the correlation between the selected model and a number of delegator faces, the correlation function to be used must be determined. Correlation functions for the correlation calculation include NCCF (Normalized Cross Correlation Function), MSE (Mean Square Error) and MAE (Mean Absolute Error) as shown in Equation 3, Equation 4 and Equation 5 below. ).

[식 3][Formula 3]

NCCF(p, q) = [ΣIn(i, j)·In+1(i+p, j+q)] / [(ΣIn 2(i, j))1/2·(ΣIn+1 2(i+p, j+q))1/2]NCCF (p, q) = [ ΣI n (i, j) · I n + 1 (i + p, j + q)] / [(ΣI n 2 (i, j)) 1/2 · (ΣI n + 1 2 (i + p, j + q)) 1/2 ]

[식 4][Formula 4]

MSE(p, q) = E([In(i, j) - In+1(i+p, j+q)]2)MSE (p, q) = E ([I n (i, j) - I n + 1 (i + p, j + q)] 2)

[식 5][Formula 5]

MAE(p, q) = E(┃In(i, j) - In+1(i+p, j+q)┃)MAE (p, q) = E (┃I n (i, j) - I n + 1 (i + p, j + q) ┃)

여기서 E(·)는 평균을 나타낸다.Where E (·) represents the mean.

상관 함수로는 NCCF가 가장 적합하지만 계산량을 고려하여 MAE를 사용한다.As the correlation function, NCCF is most suitable but MAE is used considering the calculation amount.

MAE는 영상간의 상관도가 높을수록 작은 값을 나타내게 된다. 따라서 상관 함수로 MAE를 사용할때는 그 값이 가장 낮은 회의자의 얼굴이 정합된 것으로 판단되고 모델에 해당하는 회의자의 얼굴이 되는 것이다. 이때 정합된 회의자 얼굴이 초기 위치가 되며 이를 이용하여 중심점 추적 방법을 통해 회의자 추적 단계를 수행하게 된다.The higher the correlation between images, the smaller the value of MAE is. Therefore, when MAE is used as a correlation function, it is judged that the face of the lowest chairman is matched and becomes the face of the chairman corresponding to the model. At this time, the matching delegate face becomes the initial position, and the delegate tracking step is performed through the center point tracking method.

즉, 정합이 이루어지면 회의자에 대한 초기 위치 추정이 가능하므로 이 초기 정보를 이용하여 카메라를 이동시켜 추적시키는데(208), 이를 도 7을 참조하여 세부적으로 설명한다.That is, if the matching is performed, the initial position can be estimated for the conference person, so that the camera is moved and tracked using the initial information (208), which will be described in detail with reference to FIG.

인식 기능이 이루어진 다음에는 추적할 얼굴이 있는 초기 위치를 입력 영상에서 파악할 수 있다. 추적 단계에서는 이 초기 위치를 이용하여 계속 그 얼굴 부분을 추적하는 기능을 수행하는데, 이때 사용되는 추적 방법은 중심점 추적 방법이다.After the recognition function is performed, the initial position of the face to be tracked can be grasped in the input image. In the tracking step, the face portion is continuously tracked by using the initial position. The tracking method used at this time is the center point tracking method.

적외선 영상은 배경에서 얼굴 부분을 추출하는 것이 일반 영상보다 상대적으로 용이하므로 중심점 추적 방법이 적절하며, 이의 수행 과정을 상세히 설명한다.Since the infrared image is relatively easy to extract the face part from the background than the general image, the center point tracking method is appropriate and the detailed process of the infrared point image is explained.

먼저, 윈도우 설정 단계(301)를 수행하여 상기 정합된 회의자가 있는 초기 위치에서 회의자의 얼굴을 포함하는 일정한 크기의 윈도우를 설정한다.First, a window setting step 301 is performed to set a window having a predetermined size including a face of a skeptic at an initial position where the registered skeeter is present.

일반적으로 중심점 추적은 전체 영상을 대상으로하여 수행된다. 그러나 본 발명에서는 인식 기능을 통하여 초기 위치를 알 수 있으므로 초기 위치 근방에 한정하여 추적 기능을 수행한다. 즉, 사람의 얼굴을 포함하는 크기의 창인 윈도우를 설정하여 이 창내에서만 추적 기능을 수행하면 된다.Generally, the center point tracking is performed on the entire image. However, in the present invention, since the initial position can be known through the recognition function, the tracking function is limited to the vicinity of the initial position. That is, a window that is a window of a size including a face of a person can be set to perform the tracking function only in this window.

여기서, 창의 크기는 영상내에 얼굴의 크기를 포함하면서 회의자 영상 처리단계에서 제외된 다른 사람의 얼굴을 포함하지 않는 크기이면 된다.Here, the size of the window may be a size that includes the size of the face in the image but does not include the face of another person excluded from the process of image processing of the person in the conference.

이와 같이 윈도우 설정 단계(300)를 수행한후에는 상기 설정된 윈도우 내의 화소값을 이진화하는 이진화 단계(301)를 수행하고, 상기 정합된 회의자의 중심점 추적을 위한 문턱치(Thres)를 설정하는 문턱치 설정 단계(302)를 수행한다.After the window setting step 300 is performed, a binarization step (step 301) of binarizing the pixel values in the set window and a threshold value setting step of setting a threshold value Thres for tracking the center point of the matched spermator 302).

윈도우내에서 문턱치(Thres)를 설정하면 얼굴 부분을 쉽게 추출할 수 있으므로 문턱치를 설정하여 아래 식(6)에 도시한 바와 같이 이진화값 검색 단계를 수행한다.Since the face part can be easily extracted by setting the threshold value in the window, the binarization value searching step is performed by setting the threshold value as shown in the following equation (6).

[식 6][Formula 6]

I(x, y) = 1 if I(x, y) > ThresI (x, y) = 1 if I (x, y)> Thres

위의 식(6)에서 이진화 값을 검색하여 영상에서의 값이 '1'인 부분을 계속 추적하면 회의자의 추적이 가능해진다. 즉, 초기 인식에 의해 '1'값이 나타낸 부분으로 카메라가 움직이도록 모터를 구동하고 회의자가 움직이게 되면 '1'로 표시된 부분도 같이 이동하게 되고 이 이동 정보를 다시 모터에 전달하여 카메라를 이동시킨다(304).If the binarization value is retrieved from the above equation (6) and the value of the image is '1', it is possible to track the delegator. In other words, when the motor is driven so that the camera moves to the portion indicated by '1' by the initial recognition and the singer moves, the portion indicated by '1' moves together, and the movement information is transmitted to the motor again to move the camera (304).

따라서 창도 카메라와 같이 이동하게 되므로 계속 추적이 가능해진다.Therefore, since the window is moved with the camera, continuous tracking becomes possible.

한편, 추적을 위해 카메라가 이동하는 도중에 대상 얼굴의 급격한 이동이나 창안에 2인 이상의 얼굴이 촬영된 경우에는 인식기의 작용을 다시 활성화하여 인식 기능을 거쳐서 추적 대상 얼굴을 다시 인식해야 한다.On the other hand, when two or more faces are photographed in the sudden movement of the target face or the window during the movement of the camera for tracking, the recognition target face must be recognized again through recognition function again by activating the recognition function.

즉, 상기 카메라 이동 및 추적 단계(304) 수행 도중 회의자의 추적이 불가능한 경우 상기 회의자 영상 처리단계(202 내지 206)로 진행하여 회의자를 재인식 및 재추적하는 추적 불가능 처리 단계(305, 306)를 수행한다.That is, if it is impossible to track the delegator during the camera movement and tracking step 304, the process proceeds to the delegator image processing steps 202 to 206 to re-recognize and re-track the delegator 305 and 306 .

다음으로, 화상 회의 시스템의 회의자 추적 장치는 도8에 도시한 바와 같이 영상 저장부(600), 인식부(700), 제어부(500), 초기 위치 결정부(800), 추적부(900) 및 모터부(420)로 구성된다.8, the apparatus for tracking a skeptic of a video conference system includes an image storage 600, a recognition unit 700, a control unit 500, an initial position determination unit 800, a tracking unit 900, And a motor unit 420.

상기 영상 저장부(600)는 화상 회의시 하나 또는 그 이상의 회의자의 영상에 해당하는 각각의 모델과 회의자의 영상 신호를 A/D 변환하여 저장하는 것으로, 상기 제어부(600)의 제어에 따라 화상 회의시 하나 또는 그 이상의 회의자의 영상에 해당하는 각각의 모델 영상 신호와 회의자 영상 신호를 A/D 변환하는 A/D(Analog/Digital) 변환기(510), 및 상기 제어부(500)의 제어에 따라 상기 A/D 변환기(610)로부터 출력되는 영상 신호를 저장하여 상기 인식부(700)로 출력하는 메모리(620)로 구성된다.The image storage unit 600 A / D-converts the image signals of the respective models and conference persons corresponding to images of one or more meeting persons during a video conference and stores the converted image signals. An A / D (Analog / Digital) converter 510 for A / D-converting each of the model image signals and the delegator image signals corresponding to images of one or more delegates at a time, And a memory 620 for storing the image signal output from the A / D converter 610 and outputting the image signal to the recognition unit 700. [

상기 인식부(700)는 상기 영상 저장부(600)로 부터 출력되는 모델과 회의자 영상 신호를 입력으로 추출된 경계 화소를 이용하여 각각의 모델과 회의자의 얼굴에 해당하는 폐곡선을 추출하여 모델 얼굴을 인식하는 것으로, 상기 영상 저장부(600)에 저장된 모델과 회의자 영상 신호로부터 경계 화소를 추출하는 경계 화소 추출부(710), 상기 경계 화소 추출부(710)에서 추출된 경계 화소를 이용하여 경계 방향을 추출하고 상기 모델 및 회의자 영상 신호의 각 화소의 밝기값과 주변 화소의 밝기값의 평균을 비교하여 상기 경계 방향에 벡터를 첨가하는 경계 방향 추출부(720), 및 상기 경계 방향 추출부(720)에서 추출된 경계 방향에 따라 모델 및 회의자 영상 신호의 각 화소중에서 밝기값이 큰 경계 화소로 부터 상기 추출된 경계 방향에 따라 이동하면서 폐곡선을 추출하여 모델 및 회의자 얼굴로 인식하는 폐곡선 추출부(730)로 구성된다.The recognition unit 700 extracts a closed curve corresponding to the face of each model and the delegate using the extracted boundary pixels of the model output from the image storage unit 600 and the delegator image signal, A boundary pixel extracting unit 710 for extracting boundary pixels from a model and a conference image signal stored in the image storing unit 600, A boundary direction extracting unit 720 for extracting a boundary direction and comparing a brightness value of each pixel of the model and conference video signals with an average of brightness values of neighboring pixels and adding a vector to the boundary direction, A boundary line of the model and the delegator image signal is shifted along the boundary direction extracted from the boundary pixel having a large brightness value according to the boundary direction extracted from the boundary 720, Output to consist of a closed curve extraction unit 730 to recognize a face model and meeting chair.

상기 제어부(500)는 CPU로 구성되어 상기 영상 저장부(600)와 인식부(700)의 동작을 제어하고 상기 인식부(700)에서 인식된 모델과 회의자 얼굴의 윤곽선을 정합하고 정합된 회의자를 추적하도록 제어한다.The control unit 500 includes a CPU and controls the operation of the image storage unit 600 and the recognition unit 700. The control unit 500 matches the outline of the face of the delegator with the model recognized by the recognition unit 700, To control the tracking of the person.

상기 초기 위치 결정부(800)는 상기 제어부(500)의 제어에 따라 상기 정합된 회의자가 있는 초기 위치에서 일정한 크기의 윈도우를 설정한다.The initial position determining unit 800 sets a window of a predetermined size at the initial position where the matching conference is performed according to the control of the controller 500. [

상기 추적부(900)는 상기 제어부(500)의 제어에 따라 상기 초기 위치 결정부(800)의 출력을 입력으로 상기 정합된 회의자를 중심점 추적을 총해 추적한다.The tracking unit 900 receives the output of the initial positioning unit 800 under the control of the control unit 500 and tracks the center point tracking of the registered meeting point.

상기 모터부(400)는 카메라(300)를 이동시키는 모터(410), 및 상기 제어부(500)의 제어에 따라 카메라의 방향을 이동시키기 위해 모터(420)를 구동시키는 모터 드라이버(420)로 구성된다.The motor unit 400 includes a motor 410 for moving the camera 300 and a motor driver 420 for driving the motor 420 to move the camera according to the control of the controller 500 do.

이와 같이 구성되는 본 발명에 의한 화상 회의 시스템의 회의자 추적 장치의 동작을 설명한다.The operation of the apparatus for tracking a skeptic of the video conferencing system according to the present invention will now be described.

먼저, 적외선 카메라(300)에서의 신호를 메모리에 저장하여 입력 영상을 생성해야 한다. 적외선 카메라에서 들어오는 신호, 예를 들어 NTSC 신호는 A/D 변환기(610)를 거쳐 2차원 행렬상에서 지정된 범위내의 값을 가지는 디지탈 영상(I(x, y)이 된다. 이 영상은 RAM으로 이루어진 메모리(620)에 저장되어 입력 영상으로 사용된다.First, a signal from the infrared camera 300 is stored in a memory to generate an input image. A signal input from an infrared camera, for example, an NTSC signal, is converted into a digital image I (x, y) having a value within a specified range on a two-dimensional matrix through an A / D converter 610. This image is stored in a memory (620) and used as an input image.

디지탈 영상이 메모리(620)에 저장이 되고 나서는 제어부(500)에서 폐곡선 추출부(730)의 동작이 끝날때까지 상기 A/D 변환기(610)에서 메모리(620)에 신호를 저장하는 기능을 오프시켜서 입력 영상이 변하지 않게 한다.After the digital image is stored in the memory 620, the function of storing the signal in the memory 620 in the A / D converter 610 is turned off until the operation of the closed curve extracting unit 730 is completed in the control unit 500 So that the input image does not change.

물론 폐곡선 추출부(730)의 폐곡선 추출이 완료되면 다시 새로운 입력 영상을 받아들이도록 A/D 변환기(610)를 온시킨다.When the closed curve extraction of the closed curve extracting unit 730 is completed, the A / D converter 610 is turned on to receive a new input image again.

상기 메모리(620)로부터 출력되는 영상 신호(I(x, y)는 경계 화소 추출부(710)에서 미분에 의해 경계 화소가 추출된다. 즉, 위의 식(1)과 식(2)에 의해 도 3a에 도시한 바와 같이 수평 및 수직 미분이 수행되어 미분값(h, v)이 구해진후 이 미분값의 크기((h2+ v2)1/2)는 다시 계산되고 설정된 경계선 판별용 문턱치와 비교되어 경계 화소를 찾아낸다.The boundary pixels are extracted from the image signal I (x, y) output from the memory 620 by differentiation in the boundary pixel extracting section 710. That is, by the above-mentioned equations (1) and (H 2 + v 2 ) 1/2 ) is calculated again and the set threshold value for determining the boundary line (h 2, v 2 ) is calculated again after horizontal and vertical differentiations are performed to obtain differential values And finds a boundary pixel.

또한, 경계 방향 추출부(720)에서는 이와 같이 추출된 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 경계선 방향을 산출하고, 3차원적으로 z방향 성분을 추가한다.In addition, the boundary direction extracting unit 720 calculates the boundary direction by arctangent values aran (h / v) of the vertical and horizontal differential values of the extracted boundary pixels, .

폐곡선 추출부(800)에서는 밝기값이 상위 1/10 이상에 속하는 경계 화소에서 출발하여 상기 추출된 (x,y,z) 방향에 따라서 이동한다. 이동 궤적이 폐곡선을 형성하면 회의자의 얼굴로 추출하게 된다. 이와 같이 폐곡선을 추출하는 과정을 회의 참석자의 수만큼 수행한다. 이와 같이 추출된 폐곡선이 회의자의 얼굴이 된다.The closed curve extraction unit 800 starts from a boundary pixel belonging to the upper 1/10 or more of brightness values and moves along the extracted (x, y, z) direction. When the movement trajectory forms a closed curve, it is extracted with the face of the delegate. The process of extracting the closed curve is performed as many times as the number of the attendees of the conference. The closed curve thus extracted becomes the face of the conference person.

제어부(500)에서는 모델의 영상 신호에 대해 미리 위의 과정을 수행하여 하나 또는 그 이상의 회의자의 얼굴을 사전에 카메라로 촬영해 놓은 모델의 얼굴을 데이타 베이스로 구축한다.The controller 500 performs the above process on the video signal of the model in advance, and constructs the face of the model having the face of one or more meeting persons photographed by the camera in advance as a database.

한편, 현재 카메라를 통해 입력되는 회의자의 적외선 영상 신호에 대해서도 위와 같은 과정을 통해 회의자의 얼굴을 추출한다. 즉, 회의자 영상 신호는 A/D 변환기(610)를 통해 메모리(620)에 저장된후, 경계 화소 추출부(710), 경계 방향 추출부(720), 및 폐곡선 추출부(730)를 거쳐 회의자의 얼굴이 추출된다.On the other hand, the face of the skeeter is extracted through the above process for the infrared image signal of the singer inputted through the current camera. That is, the conference video signal is stored in the memory 620 through the A / D converter 610, and then transmitted to the conference 610 through the boundary pixel extracting unit 710, the boundary direction extracting unit 720, The face of the person is extracted.

이와 같이 추출된 회의자의 얼굴은 메모리에 저장되고, 이때 다수의 모델중에서 선택된 하나의 모델과 동일한 회의자를 제어부(500)에서 정합을 통해 추출해내고, 추출된 회의자를 중심점 추적 방법을 통해 추적기(900)에서 추적한다.The extracted face of the skeeter is stored in the memory. At this time, the controller 500 extracts the same singer as the one selected from the plurality of models through the matching process, .

이상에서 설명한 바와 같이 본 발명에 의한 화상 회의 시스템의 회의자 추적 방법 및 장치는 경계 화소 및 방향을 이용하여 폐곡선을 추출하여 회의자를 인식한후 이를 추적하는 기능이 있어 화상 회의중 회의자가 이동하더라도 카메라로 추적이 가능하다.As described above, the method and apparatus for tracking a skeiner of a video conference system according to the present invention has a function of extracting a closed curve by using boundary pixels and directions and tracking a singer after recognizing the scepter, .

Claims (9)

화상 회의시 하나 또는 그 이상의 회의자 영상에 해당하는 모델 영상 신호를 입력으로 추출된 경계 화소를 이용하여 각각의 모델 얼굴에 해당하는 폐곡선을 추출하여 모델 얼굴을 인식하는 모델 처리 단계(100 내지 105);A model processing step (100 to 105) for extracting a closed curve corresponding to each model face using the extracted boundary pixels by inputting a model video signal corresponding to one or more conference images during a video conference and recognizing the model face, ; 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 하나를 선택하는 모델 선택 단계(201);A model selection step (201) of selecting one of the recognized one or more model image signals; 카메라를 통해 입력되는 회의자 영상 신호를 입력으로 추출된 경계 화소를 이용하여 회의자 얼굴에 해당하는 폐곡선을 추출하여 회의자 얼굴을 인식하는 회의자 영상 처리 단계(202 내지 206);A conference person image processing step (202 to 206) for recognizing a conference person's face by extracting a closed curve corresponding to the conference person's face using the extracted boundary pixels inputted through the camera; 상기 선택된 모델 얼굴의 폐곡선과 상기 인식된 회의자 얼굴의 폐곡선을 정합시키는 정합 단계(207);A matching step (207) of matching a closed curve of the selected model face with a closed curve of the recognized sister face; 상기 정합된 회의자를 추적하여 카메라를 이동시키는 회의자 추적 단계(208), 및A sceinator tracking step (208) for tracking the matched scepter and moving the camera, and 상기 인식된 하나 또는 그 이상의 모델 영상 신호 중에서 다른 하나를 선택하는 경우 정합 단계(207)로 진행하는 모델 변경 단계(210)에 의해 수행됨을 특징으로 하는 화상 회의 시스템의 회의자 추적 방법.And a model changing step (210) of advancing to a matching step (207) when another one of the recognized one or more model video signals is selected. 제 1 항에 있어서, 상기 모델 처리 단계(100 내지 105)는 화상 회의시 인식할 회의자의 적외선 영상에 해당하는 모델 영상 신호를 A/D 변환하여 저장하는 모델 영상 신호 저장 단계(100); 상기 저장된 모델 영상 신호로부터 경계 화소를 추출하는 경계 화소 추출 단계(101); 상기 추출된 경계 화소를 이용하여 경계 방향을 추출하고 상기 모델 영상 신호의 각 화소의 밝기값과 주변 화소의 밝기값의 평균을 비교하여 상기 경계 방향에 벡터를 첨가하는 경계 방향 추출 단계(102); 상기 모델의 수에 따라 상기 모델 영상 신호의 각 화소중에서 밝기값이 큰 경계 화소로 부터 상기 추출된 경계 방향에 따라 이동하면서 폐곡선을 추출하는 폐곡선 추출 단계(103, 105); 및 상기 추출된 폐곡선의 내부를 모델 얼굴로 인식하여 저장하는 모델 얼굴 저장 단계(104)를 포함하여 수행됨을 특징으로 하는 화상 회의 시스템의 회의자 추적 방법.The method of claim 1, wherein the model processing steps (100 to 105) include: a model image signal storage step (100) of A / D-converting a model image signal corresponding to an infrared image of a singer to be recognized at the time of a video conference; A boundary pixel extracting step (101) of extracting a boundary pixel from the stored model video signal; Extracting a boundary direction using the extracted boundary pixels, comparing a brightness value of each pixel of the model video signal with an average of brightness values of neighboring pixels, and adding a vector to the boundary direction; A closed curve extracting step (103, 105) for extracting a closed curve from a boundary pixel having a larger brightness value among the pixels of the model video signal according to the number of the models, while moving along the extracted boundary direction; And a model face storage step (104) for recognizing and storing the interior of the extracted closed curve as a model face. 제 1 항에 있어서, 상기 회의자 영상 처리단계(202 내지 206)는 카메라를 통해 입력되는 회의자 영상 신호를 A/D 변환하여 저장하는 회의자 영상 신호 저장 단계(202); 상기 저장된 회의자 영상 신호로부터 경계 화소를 추출하는 경계 화소 추출 단계(203); 상기 추출된 경계 화소를 이용하여 경계 방향을 추출하고 상기 회의자 영상 신호의 각 화소의 밝기값과 주변 화소의 밝기값의 평균을 비교하여 상기 경계 방향에 벡터를 첨가하는 경계 방향 추출 단계(204); 상기 회의자의 수에 따라 상기 회의자 영상 신호의 각 화소중에서 밝기값이 큰 경계 화소로 부터 상기 추출된 경계 방향에 따라 이동하면서 폐곡선을 추출하는 폐곡선 추출 단계(205), 및 상기 추출된 폐곡선의 내부를 회의자 얼굴로 인식하여 저장하는 회의자 얼굴 저장 단계(206)를 포함하여 수행됨을 특징으로 하는 화상 회의 시스템의 회의자 추적 방법.2. The method of claim 1, wherein the step of processing the conference image comprises steps of: (202) storing a conference person image signal for A / D conversion of a conference person image signal inputted through a camera; A boundary pixel extraction step (203) of extracting boundary pixels from the stored conference image signals; A boundary direction extracting step (204) of extracting a boundary direction using the extracted boundary pixels and comparing a brightness value of each pixel of the conference video signal with an average of brightness values of surrounding pixels and adding a vector to the boundary direction, ; A closed curve extracting step (205) of extracting a closed curve while moving along the extracted boundary direction from a boundary pixel having a larger brightness value among pixels of the conference image signal according to the number of the conference persons, And a delegate face storage step (206) for storing the delegate face as a delegate face. 제 2 항 또는 제 3 항에 있어서, 상기 경계 화소는 상기 저장된 모델 영상 신호의 수직 및 수평 방향의 미분값과 설정된 경계선 판별용 문턱치의 비교에 의해 결정됨을 특징으로 하는 화상 회의 시스템.4. The video conference system according to claim 2 or 3, wherein the boundary pixels are determined by comparing the vertical and horizontal differential values of the stored model video signal with a threshold for discriminating the boundary line. 제 4 항에 있어서, 상기 경계 방향은 상기 경계 화소의 수직 및 수평 방향의 미분값의 아크탄젠트값(aran(h/v))으로 계산됨을 특징으로 하는 화상 회의 시스템.The video conferencing system of claim 4, wherein the boundary direction is calculated as an arctangent value (aran (h / v)) of the differential values in the vertical and horizontal directions of the boundary pixels. 제 1 항에 있어서, 상기 회의자 추적 단계(208)는 상기 정합된 회의자가 있는 초기 위치에서 회의자의 얼굴을 포함하는 일정한 크기의 윈도우를 설정하는 윈도우 설정 단계(300); 상기 설정된 윈도우 내의 화소값을 이진화하는 이진화 단계(301); 상기 정합된 회의자의 중심점 추적을 위한 문턱치를 설정하는 문턱치 설정 단계(302); 상기 이진화된 화소값이 설정된 문턱치 보다 큰지 검색하는 이진화 값 검색 단계(303); 및 상기 이진화 값 검색 결과 이진화 값이 상기 문턱치보다 큰 경우 상기 카메라를 이동시켜 추적을 수행하는 카메라 이동 및 추적 단계(304)를 포함하여 수행됨을 특징으로 하는 화상 회의 시스템의 회의자 추적 방법.The method of claim 1, wherein the step of tracking the delegate (208) comprises: a window setting step (300) of setting a window of a predetermined size including the face of the delegator at an initial position with the matched delegate; A binarization step (301) of binarizing pixel values in the set window; A threshold setting step (302) of setting a threshold for tracking the center point of the matched skeiner; A binarization value search step (303) for searching whether the binarized pixel value is larger than a threshold value set; And a camera movement and tracking step (304) for moving the camera and performing tracking if the binarized value is greater than the threshold value. 화상 회의시 하나 또는 그 이상의 회의자의 영상에 해당하는 각각의 모델과 회의자의 영상 신호를 A/D 변환하여 저장하는 영상 저장 수단(600);An image storage means (600) for A / D converting and storing the image signals of the respective models and conference persons corresponding to images of one or more conference persons during a video conference; 상기 영상 저장 수단(600)으로 부터 출력되는 모델과 회의자 영상 신호를 입력으로 추출된 경계 화소를 이용하여 각각의 모델과 회의자의 얼굴에 해당하는 폐곡선을 추출하여 모델 얼굴을 인식하는 인식 수단(700);A recognizing means 700 for recognizing a model face by extracting a closed curve corresponding to a face of each model and a skeeter using the model outputted from the image storing means 600 and the boundary pixels extracted by inputting the sketcher image signal, ); 상기 영상 저장 수단(600)과 인식 수단(700)의 동작을 제어하고 상기 인식 수단(700)에서 인식된 모델과 회의자 얼굴의 윤곽선을 정합하고 정합된 회의자를 추적하도록 제어하는 제어 수단(500);A control unit 500 for controlling the operation of the image storage unit 600 and the recognition unit 700 and for controlling the recognition unit 700 to match the outline of the dancer's face recognized by the recognition unit 700 and to track the dancer, ; 상기 제어 수단(500)의 제어에 따라 상기 정합된 회의자가 있는 초기 위치에서 일정한 크기의 윈도우를 설정하는 초기 위치 결정 수단(800); 및An initial positioning means (800) for setting a window of a predetermined size at an initial position in which the matched sketcher is under control of the control means (500); And 상기 제어 수단(500)의 제어에 따라 상기 초기 위치 결정 수단(800)의 출력을 입력으로 상기 정합된 회의자를 추적하는 추적 수단(900)으로 구성됨을 특징으로 하는 화상 회의 시스템의 회의자 추적 장치.And a tracking unit (900) for tracking the matched sketch by inputting the output of the initial positioning unit (800) under the control of the control unit (500). 제 7 항에 있어서, 상기 영상 저장 수단(600)은 상기 제어 수단(600)의 제어에 따라 화상 회의시 하나 또는 그 이상의 회의자의 영상에 해당하는 각각의 모델 영상 신호와 회의자 영상 신호를 A/D 변환하는 A/D(Analog/Digital) 변환기(510); 및 상기 제어 수단(500)의 제어에 따라 상기 A/D 변환기(610)로부터 출력되는 영상 신호를 저장하여 상기 인식 수단(700)으로 출력하는 메모리(620)로 구성됨을 특징으로 하는 화상 회의 시스템의 회의자 추적 장치.[7] The method of claim 7, wherein the image storage means (600) comprises: a control unit (600) for controlling each of the model image signals and the delegator image signals corresponding to one or more images of the delegator A / D (Analog / Digital) converter 510 for converting the analog signal into digital data; And a memory (620) for storing the video signal output from the A / D converter (610) under control of the control means (500) and outputting the video signal to the recognition means (700) Delegator tracking device. 제 7 항에 있어서, 상기 인식 수단(700)은 상기 영상 저장 수단(600)에 저장된 모델과 회의자 영상 신호로부터 경계 화소를 추출하는 경계 화소 추출부(710); 상기 경계 화소 추출부(710)에서 추출된 경계 화소를 이용하여 경계 방향을 추출하고 상기 모델 및 회의자 영상 신호의 각 화소의 밝기값과 주변 화소의 밝기값의 평균을 비교하여 상기 경계 방향에 벡터를 첨가하는 경계 방향 추출부(720); 및 상기 경계 방향 추출부(720)에서 추출된 경계 방향에 따라 모델 및 회의자 영상 신호의 각 화소중에서 밝기값이 큰 경계 화소로 부터 상기 추출된 경계 방향에 따라 이동하면서 폐곡선을 추출하여 모델 및 회의자 얼굴로 인식하는 폐곡선 추출부(730)로 구성됨을 특징으로 하는 화상 회의 시스템의 회의자 추적 장치.8. The image processing apparatus according to claim 7, wherein the recognizing unit (700) comprises: a boundary pixel extracting unit (710) for extracting boundary pixels from the model and the sketcher image signal stored in the image storing unit (600); The boundary direction extracted by the boundary pixel extracting unit 710 is used to extract the boundary direction, and the average value of the brightness values of the surrounding pixels and the brightness values of the pixels of the model and the conference image signals are compared, A boundary direction extracting unit 720 for adding the boundary direction extracting unit 720; And the boundary direction extracting unit 720 extracts a closed curve while moving along the extracted boundary direction from a boundary pixel having a large brightness value among the pixels of the model and the delegator video signal according to the boundary direction extracted by the boundary direction extracting unit 720, And a closed curve extracting unit (730) for recognizing the face as a face.
KR1019960054437A 1996-11-15 1996-11-15 Speaker tracking method and device for video conference system KR100220836B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960054437A KR100220836B1 (en) 1996-11-15 1996-11-15 Speaker tracking method and device for video conference system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960054437A KR100220836B1 (en) 1996-11-15 1996-11-15 Speaker tracking method and device for video conference system

Publications (2)

Publication Number Publication Date
KR19980035969A KR19980035969A (en) 1998-08-05
KR100220836B1 true KR100220836B1 (en) 1999-09-15

Family

ID=19482052

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960054437A KR100220836B1 (en) 1996-11-15 1996-11-15 Speaker tracking method and device for video conference system

Country Status (1)

Country Link
KR (1) KR100220836B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378660B (en) * 2021-05-25 2023-11-07 广州紫为云科技有限公司 Face recognition method and device with low data cost

Also Published As

Publication number Publication date
KR19980035969A (en) 1998-08-05

Similar Documents

Publication Publication Date Title
US7340100B2 (en) Posture recognition apparatus and autonomous robot
US6853880B2 (en) Autonomous action robot
CN101406390B (en) Method and apparatus for detecting part of human body and human, and method and apparatus for detecting objects
EP1650711A1 (en) Image processing device, imaging device, image processing method
CN1839410B (en) Image processor, imaging apparatus and image processing method
US6005609A (en) Method and apparatus for digital correlation object tracker using a shape extraction focalization technique
JPH1051755A (en) Screen display controller for video conference terminal equipment
JP2008071172A (en) Face authentication system, face authentication method, and access control device
US7848544B2 (en) Robust face registration via multiple face prototypes synthesis
US6563528B2 (en) Video conference system
KR20140074201A (en) Tracking device
KR101077312B1 (en) Humman detection appartus using Haar-like fearture and method thereof
CN115131405A (en) Speaker tracking method and system based on multi-mode information
CN113177531B (en) Speech recognition method, system, equipment and medium based on video analysis
JP3272584B2 (en) Region extraction device and direction detection device using the same
KR100220836B1 (en) Speaker tracking method and device for video conference system
CN108549877A (en) A kind of tracking robot trajectory's recognition methods based on neural network
JP2019139479A (en) Program, device, and method for estimating context using a plurality of recognition engines
JP3607440B2 (en) Gesture recognition method
KR100215206B1 (en) Video conference system
CN113688680A (en) Intelligent identification and tracking system
CN113766130A (en) Video shooting method, electronic equipment and device
JP3673578B2 (en) Correlation tracking system
JPH10336506A (en) Image-processing system, system and method for tracking and storage medium
JPH10149447A (en) Gesture recognition method/device

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20090601

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee