KR102012719B1 - 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법 - Google Patents
전방위 영상 기반 화상회의 발언자 인식 장치 및 방법 Download PDFInfo
- Publication number
- KR102012719B1 KR102012719B1 KR1020170166303A KR20170166303A KR102012719B1 KR 102012719 B1 KR102012719 B1 KR 102012719B1 KR 1020170166303 A KR1020170166303 A KR 1020170166303A KR 20170166303 A KR20170166303 A KR 20170166303A KR 102012719 B1 KR102012719 B1 KR 102012719B1
- Authority
- KR
- South Korea
- Prior art keywords
- mouth motion
- mouth
- motion
- speaker
- region
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 11
- 230000033001 locomotion Effects 0.000 claims abstract description 260
- 230000003068 static effect Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 abstract description 6
- 206010048232 Yawning Diseases 0.000 abstract description 2
- 241001282135 Poromitra oscitans Species 0.000 abstract 1
- 230000035622 drinking Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000005855 radiation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/175—Static expression
-
- G06K9/00308—
-
- G06K9/00288—
-
- G06K9/6212—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Abstract
본 발명에서는 종래의 원격회의시, 마이크가 고장 난 경우 또는 마이크를 누르지 않고 발언을 하는 경우에는 발언하는 화자를 찾기 어려운 문제점과, 참석자가 물을 마시거나 하품을 하는 경우 발언하는 화자와 발언하지 않는 화자를 구분하기가 쉽지 않기 때문에 오검출이 발생할 확률이 높다는 문제점을 개선하고자, 적외선센서부(100), 입모양모션카메라부(200), 스마트입모양모션제어부(300)로 구성됨으로서, 발언자용 마이크 일측에 설치되어, 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시킬 수 있어, 발언자의 영상포커싱 위치인식속도를 기존에 비해 70% 향상시킬 수 있고, 스마트입모양모션제어부를 통해 현재 사람의 움직임에 따른 입모양모션에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션을 실시간으로 인식시킬 수 있어, 사람의 몸에 별도의 입모양모션인식장비를 부착하거나 착용하지 않아도, 발언자의 입모양움직임에 따른 입모양모션만을 인식시킬 수 있고, 이로 인해, 발언자의 입모양 움직임과 특정 마이크의 빨간 불빛을 통해 발언자를 검출하고, 확대 추출 및 표출함으로써 기존에 비해 90% 발언자 검출 정확도를 제공할 수 있으며, 무엇보다, 스마트입모양모션제어부를 통해, 입모양모션카메라부로부터 획득한 입모양모션이미지에서 배경영역을 제외한 입모양모션영역만을 추출시킨 후, 추출시킨 입모양모션영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션을 인식시켜 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로 전송시키도록 제어시킬 수 있어, 회의영상이 끊김없이, 전체적인 회의장 영상을 서로 스트리밍 함으로써 회의장 간 실시간 원격 회의 시스템을 제공할 수 있는 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법을 제공하는데 그 목적이 있다.
Description
본 발명에서는 회의 테이블 위에 360도 카메라를 설치하여 획득한 회의장의 전반적인 영상을 통해 모든 회의 참석자를 촬영 및 얼굴을 검출하고, 입모양의 움직임을 인식하여 발언하는 화자를 찾아 영상 확대 추출 및 새로운 창에 표출할 수 있는 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법에 관한 것이다.
일반적으로 회의장은 다수의 화자가 있기 때문에 360도 카메라와 마이크를 연동하여 마이크가 눌린 경우에 카메라 영상 중 화자를 추적하여 회의 영상을 제공하는 시스템으로 구성되어 있다.
이는 마이크가 고장 난 경우 또는 마이크를 누르지 않고 발언을 하는 경우에는 발언하는 화자를 찾기 어려운 문제점이 있었다.
회의 진행시에 카메라를 통해 모든 참석자를 촬영하는 경우 해당 영상에서 발언하는 화자를 찾을 때 주로 화자의 얼굴을 인식하여 입모양으로만 발언자를 구분한다.
하지만 이는 참석자가 물을 마시거나 하품을 하는 경우 발언하는 화자와 발언하지 않는 화자를 구분하기가 쉽지 않기 때문에 오검출이 발생할 확률이 높다는 문제점이 있다.
상기의 목적을 달성하기 위해 본 발명에서는
발언자용 마이크 일측에 설치되어, 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시킬 수 있고, 스마트입모양모션제어부를 통해 현재 사람의 움직임에 따른 입모양모션에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션을 실시간으로 인식시킬 수 있으며, 스마트입모양모션제어부를 통해, 입모양모션카메라부로부터 획득한 입모양모션이미지에서 배경영역을 제외한 입모양모션영역만을 추출시킨 후, 추출시킨 입모양모션영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션을 인식시켜 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로 전송시키도록 제어시킬 수 있는 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법을 제공하는데 그 목적이 있다.
상기의 목적을 달성하기 위해 본 발명에 따른 전방위 영상 기반 화상회의 발언자 인식 장치는
발언자용 마이크 일측에 설치되어, 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시키는 적외선센서부(100)와,
회의장 일측에 위치되어, 적외선센서부를 통해 전송된 적외선에 따라 영상포커싱에 위치한 발언자 얼굴 중심으로 카메라를 포커싱시켜 얼굴 및 입모양 움직임을 영상촬영시키는 입모양모션카메라부(200)와,
입모양모션카메라부로부터 획득한 입모양모션이미지에서 배경영역을 제외한 입모양모션영역만을 추출시킨 후, 추출시킨 입모양모션영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션을 인식시켜 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로 전송시키도록 제어시키는 스마트입모양모션제어부(300)로 구성됨으로서 달성된다.
이상에서 설명한 바와 같이, 본 발명에서는
첫째, 발언자용 마이크 일측에 설치되어, 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시킬 수 있어, 발언자의 영상포커싱 위치인식속도를 기존에 비해 70% 향상시킬 수 있다.
둘째, 스마트입모양모션제어부를 통해 현재 사람의 움직임에 따른 입모양모션에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션을 실시간으로 인식시킬 수 있어, 사람의 몸에 별도의 입모양모션인식장비를 부착하거나 착용하지 않아도, 발언자의 입모양움직임에 따른 입모양모션만을 인식시킬 수 있고, 이로 인해, 발언자의 입모양 움직임과 특정 마이크의 빨간 불빛을 통해 발언자를 검출하고, 확대 추출 및 표출함으로써 기존에 비해 90% 발언자 검출 정확도를 제공할 수 있다.
셋째, 스마트입모양모션제어부를 통해, 입모양모션카메라부로부터 획득한 입모양모션이미지에서 배경영역을 제외한 입모양모션영역만을 추출시킨 후, 추출시킨 입모양모션영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션을 인식시켜 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로 전송시키도록 제어시킬 수 있어, 회의영상이 끊김없이, 전체적인 회의장 영상을 서로 스트리밍 함으로써 회의장 간 실시간 원격 회의 시스템을 제공할 수 있다.
도 1은 본 발명에 따른 전방위 영상 기반 화상회의 발언자 인식 장치(1)의 구성요소를 도시한 구성도,
도 2는 본 발명에 따른 입모양모션카메라부의 구성요소를 도시한 블럭도,
도 3은 본 발명에 따른 스마트입모양모션제어부의 구성요소를 도시한 블럭도,
도 4는 본 발명에 따른 RGB히스토그램엔진모듈을 통해 배경영역을 제외한 입모양모션영역만을 추출시키는 것을 도시한 일실시예도,
도 5는 본 발명에 따른 스마트입모양모션인식부의 구성요소를 도시한 블럭도,
도 6은 본 발명에 따른 스마트입모양모션인식부에서 인식된 비접촉식 특정 입모양모션이 "ㅏ[a]"이면, "ㅏ[a]"의 비접촉식 특정 입모양모션에 맞는 발언자의 얼굴영상과 음성데이터를 불러와서, 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로, "ㅏ[a]"의 비접촉식 특정 입모양모션에 맞는 발언자의 얼굴영상과 음성데이터를 출력시키는 것을 도시한 일실시예도,
도 7은 본 발명에 따른 적외선센서부에서 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시키는 것을 도시한 일실시예도,
도 8은 본 발명에 따른 전방위 영상 기반 화상회의 발언자 인식 방법의 동작과정을 도시한 순서도.
도 2는 본 발명에 따른 입모양모션카메라부의 구성요소를 도시한 블럭도,
도 3은 본 발명에 따른 스마트입모양모션제어부의 구성요소를 도시한 블럭도,
도 4는 본 발명에 따른 RGB히스토그램엔진모듈을 통해 배경영역을 제외한 입모양모션영역만을 추출시키는 것을 도시한 일실시예도,
도 5는 본 발명에 따른 스마트입모양모션인식부의 구성요소를 도시한 블럭도,
도 6은 본 발명에 따른 스마트입모양모션인식부에서 인식된 비접촉식 특정 입모양모션이 "ㅏ[a]"이면, "ㅏ[a]"의 비접촉식 특정 입모양모션에 맞는 발언자의 얼굴영상과 음성데이터를 불러와서, 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로, "ㅏ[a]"의 비접촉식 특정 입모양모션에 맞는 발언자의 얼굴영상과 음성데이터를 출력시키는 것을 도시한 일실시예도,
도 7은 본 발명에 따른 적외선센서부에서 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시키는 것을 도시한 일실시예도,
도 8은 본 발명에 따른 전방위 영상 기반 화상회의 발언자 인식 방법의 동작과정을 도시한 순서도.
이하, 본 발명에 따른 바람직한 실시예를 도면을 첨부하여 설명한다.
도 1은 본 발명에 따른 전방위 영상 기반 화상회의 발언자 인식 장치(1)의 구성요소를 도시한 구성도에 관한 것으로, 이는 적외선센서부(100), 입모양모션카메라부(200), 스마트입모양모션제어부(300)로 구성된다.
먼저, 본 발명에 따른 적외선센서부(100)에 관해 설명한다.
상기 적외선센서부(100)는 발언자용 마이크 일측에 설치되어, 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시키는 역할을 한다.
이는 적외선을 이용해 온도, 압력, 방사선의 세기 등의 물리량이나 화학량을 감지하여 신호처리가 가능한 전기량으로 변환하는 장치로서, 이는 입모양모션카메라부쪽으로 적외선을 쏴주어 발산시키도록 구성된다.
여기서, 적외선이란 전자기파 스펙트럼 중 가시광선의 적색광보다 길고 마이크로파보다 짧은 파장, 즉 파장 0.75μm∼1mm의 복사선을 가리킨다.
다음으로, 본 발명에 따른 입모양모션카메라부(200)에 관해 설명한다.
상기 입모양모션카메라부(200)는 회의장 일측에 위치되어, 적외선센서부를 통해 전송된 적외선에 따라 영상포커싱에 위치한 발언자 얼굴 중심으로 카메라를 포커싱시켜 얼굴 및 입모양 움직임을 영상촬영시키는 역할을 한다.
이는 도 2에 도시한 바와 같이, 적외선감지부(210), 깊이카메라(220)로 구성된다.
상기 적외선감지부(210)는 적외선센서부를 통해 전송된 적외선 불빛을 감지하는 역할을 한다.
상기 깊이카메라는 적외선감지부로부터 감지된 적외선 불빛의 위치에 따라 영상포커싱시킨 후, 회의장 모습 또는 발언자의 깊이 정보를 획득하는 역할을 한다.
이는 적외선센서부에서 발생된 적외선을 적외선감지부에서 감지하고, 이때 감지한 시간을 계산하여 물체의 깊이를 산출한다.
이때, 획득한 깊이 정보는 스테레오 정합 방법으로 얻은 깊이 정보보다 정확도가 높은 특성을 가진다.
본 발명에 따른 입모양모션카메라부는 3D좌표설정부(211)가 포함되어 구성된다.
상기 3D좌표설정부(211)는 사람의 움직임에 따른 입모양모션이미지를 획득시, 입모양모션 위치 중 X축은 -값부터 +값까지 좌표를 표출하여 카메라 정면을 기준으로 앞뒤의 입모양모션로 설정시키고, 입모양모션 위치 중 Z축은 -값부터 +값까지 좌표를 표출하여 카메라 정면을 기준으로 좌우의 입모양모션로 설정시키며, 입모양모션 위치 중 Y축은 -값부터 +값까지 좌표를 표출하여 카메라 정면을 기준으로 상하의 입모양모션로 설정시키는 역할을 한다.
이로 인해, 입모양모션이미지에 발생되는 잡음을 제거하고, X축, Y축, Z축으로 이루어진 정확한 입모양모션이미지를 획득할 수가 있다.
다음으로, 본 발명에 따른 스마트입모양모션제어부(300)에 관해 설명한다.
상기 스마트입모양모션제어부(300)는 입모양모션카메라부로부터 획득한 입모양모션이미지에서 배경영역을 제외한 입모양모션영역만을 추출시킨 후, 추출시킨 입모양모션영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션을 인식시켜 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로 전송시키도록 제어시키는 역할을 한다.
이는 도 3에 도시한 바와 같이, 입모양모션영역추출부(310), HSV 히스토그램생성부(320), 기준입모양모션모델링설정부(330), 스마트입모양모션인식부(340), 액션이벤트제어부(350)로 구성된다.
첫째, 본 발명에 따른 입모양모션영역추출부(310)에 관해 설명한다.
상기 입모양모션영역추출부(310)는 입모양모션카메라부로부터 획득한 입모양모션이미지에서 미리 설정된 RGB 히스토그램을 이용하여 배경영역을 제외한 입모양모션영역만을 추출시키는 역할을 한다.
이는 RGB히스토그램엔진모듈(311)이 포함되어 구성된다.
상기 RGB히스토그램엔진모듈(311)은 도 4에 도시한 바와 같이, RGB 히스토그램을 통해 배경영역을 제외한 입모양모션영역만을 추출시킨다.
상기 RGB 히스토그램엔진모듈은 피부색의 사전 정보로서, 피부색과 배경색상에 대하여 각각 X축, Y축, Z축의 3차원 히스토그램을 구축하도록 구성된다.
즉, RGB 색상을 이용하여 지속적인 피부색 검출을 할 경우에 입모양모션카메라부로부터 획득한 입모양모션이미지를 그대로 사용할 수 있어 수행속도를 향상시킬 수가 있다.
상기 RGB 히스토그램엔진모듈은 다음과 같은 과정을 통해 수행된다.
먼저, 입력되는 입모양모션이미지 영역을 RGB히스토그램을 통해 배경영역을 제외한 입모양모션영역만을 마스크한다.
이때, 마스크는 반원형상으로 설정한다.
이어서, 마스크한 입모양모션영역에 발생된 노이즈를 필터링부를 통해 필터링시켜 제거한다.
끝으로, 필터링된 RGB 입모양모션영역을 HSV 히스토그램설정부로 전달시킨다.
둘째, 본 발명에 따른 HSV 히스토그램생성부(320)에 관해 설명한다.
상기 HSV 히스토그램생성부(320)는 입모양모션영역추출부에서 추출된 입모양모션 영역에서 색상정보를 이용하여 HSV 히스토그램을 생성시키는 역할을 한다.
이는 입모양모션영역추출부에서 생성된 RGB 입모양모션영역을 HSV 입모양모션영역으로 변환시킨다.
상기 HSV 히스토그램생성부는 도 4에 도시한 바와 같이, H(색상), S(채도), V(명도)를 기반으로 X축, Y축, Z축의 3차원 히스토그램을 생성시킨다.
셋째, 본 발명에 따른 기준입모양모션모델링설정부(330)에 관해 설명한다.
상기 기준입모양모션모델링설정부(330)는 도 6에 도시한 바와 같이, 사람의 움직임에 따른 입모양모션패턴을 DB화시켜 기준입모양모션모델로 미리 설정시키는 역할을 한다.
이는 발언자의 발언시, 입에서 움직이는 것을 모두 입모양모션모델링시킨다.
본 발명에서는 입에서 발언되는 모양을 기준입모양모션모델로 설정시킨다.
J개의 입모양모션 패턴 각각에 Ni개의 이미지를 구성한 후, 다음의 수학식 1과 같이 평균을 구하여 기준입모양모션모델을 만든다.
여기서, DMi ,j는 i번째 사용자의 j번째 입모양모션 패턴에 대한 모델이다.
은 i번째 사용자의 입모양모션 패턴에 대한 n번째 입모양모션이미지를 나타내며, 픽셀(x,y)가 입모양모션 영역에 속하는 경우에는 1, 배경영역에 속하는 경우에는 0의 값을 가진다.
DMi ,j는 사용자에 따라 다른 모델이 만들어지므로 사용자 종속모델에 해당한다.
이에 다음의 수학식 2와 같이 사용자 독립모델을 구성한다.
상기 IMj는 사용자 독립모델로서, 각 사용자의 입모양모션이미지를 모두 사용하여 평균을 연산시킨다.
넷째, 본 발명에 따른 스마트입모양모션인식부(340)에 관해 설명한다.
상기 스마트입모양모션인식부(340)는 추출시킨 입모양모션영역을 정적 입모양모션 영역 또는 동적 입모양모션 영역으로 세분화하여 분류시킨 후, 분류시킨 정적 입모양모션 영역 및 동적 입모양모션 영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션이 어디에 매칭되는지를 인식시키는 역할을 한다.
이는 도 5에 도시한 바와 같이, 입모양모션분류부(341), 입모양모션비교분석부(342), 입모양모션인식부(343)로 구성된다.
상기 입모양모션분류부(341)는 추출시킨 입모양모션영역을 정적 입모양모션 영역 또는 동적 입모양모션 영역으로 세분화하여 분류시키는 역할을 한다.
이는 움직이지 않고 정지된 상태를 정적 입모양모션 영역으로 설정시키고, 움직이고 활동된 상태를 동적 입모양모션 영역으로 설정시킨다.
상기 입모양모션비교분석부(342)는 입모양모션분류부를 통해 분류시킨 정적 입모양모션 영역 및 동적 입모양모션 영역에다가 기준입모양모션모델과 비교·분석하는 역할을 한다.
여기서, 기준입모양모션모델은 발언자의 입에서 움직이는 것을 모두 입모양모션모델링시킨다.
상기 입모양모션인식부(343)는 입모양모션비교분석부에서 비교분석된 특정 입모양모션을 기준으로 어떠한 입모양모션 유형인지를 매칭하여 인식시키는 역할을 한다.
여기서, 입모양모션 유형은 입모양모션 종류(발음에 따른 "ㅏ[a]", "ㅐ[æ]", "ㅑ[ja]", "ㅒ[jæ]", "ㅓ[∧]", "ㅔ[e]", "ㅕ[j∧]", "ㅖ[je]", "ㅗ[o]", "ㅘ[wa]", "ㅙ[wæ]", "ㅚ[we]", "ㅛ[jo]", "ㅜ[u]", "ㅝ[w∧]", "ㅞ[we]", "ㅟ[wi]", "ㅠ[ju]", "ㅡ", "ㅢ", "ㅣ" ), 입모양모션 개수에 맞게 셋업(SETUP)테이블화시켜 미리 저장시킨다.
다섯째, 본 발명에 따른 액션이벤트제어부(350)에 관해 설명한다.
상기 액션이벤트제어부(350)는 스마트입모양모션인식부에서 인식된 특정 입모양모션을 기준으로, 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로, 발언자의 얼굴영상과, 특정 입모양모션에 따른 음성데이터를 출력시키는 역할을 한다.
이는 도 6에서 도시한 바와 같이, 스마트입모양모션인식부에서 인식된 비접촉식 특정 입모양모션이 "ㅏ[a]"이면, "ㅏ[a]"의 비접촉식 특정 입모양모션에 맞는 발언자의 얼굴영상과 음성데이터를 불러와서, 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로, "ㅏ[a]"의 비접촉식 특정 입모양모션에 맞는 발언자의 얼굴영상과 음성데이터를 출력시킨다.
또 다른 일예로, 스마트입모양모션인식부에서 인식된 비접촉식 특정 입모양모션이 "ㅔ[e]"이면, "ㅔ[e]"의 비접촉식 특정 입모양모션에 맞는 발언자의 얼굴영상과 음성데이터를 불러와서, 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로, "ㅔ[e]"의 비접촉식 특정 입모양모션에 맞는 발언자의 얼굴영상과 음성데이터를 출력시킨다.
이하, 본 발명에 따른 전방위 영상 기반 화상회의 발언자 인식 방법에 관해 설명한다.
도 8은 본 발명에 따른 전방위 영상 기반 화상회의 발언자 인식 방법의 동작과정을 도시한 순서도에 관한 것이다.
먼저, 도 7에 도시한 바와 같이, 적외선센서부에서 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시킨다(S100).
다음으로, 입모양모션카메라부에서 적외선센서부를 통해 전송된 적외선에 따라 영상포커싱에 위치한 발언자 얼굴 중심으로 카메라를 포커싱시켜 얼굴 및 입모양 움직임을 영상촬영시킨다(S200).
다음으로, 스마트입모양모션제어부의 입모양모션영역추출부에서 입모양모션카메라부로부터 획득한 입모양모션이미지에서 배경영역을 제외한 입모양모션영역만을 추출시킨다(S300).
다음으로, 스마트입모양모션제어부의 스마트입모양모션인식부에서 추출시킨 입모양모션영역을 정적 입모양모션 영역 또는 동적 입모양모션 영역으로 세분화하여 분류시킨 후, 분류시킨 정적 입모양모션 영역 및 동적 입모양모션 영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션이 매칭되는지를 인식시킨다(S400).
끝으로, 스마트입모양모션제어부의 액션이벤트제어부에서 스마트입모양모션인식부에서 인식된 특정 입모양모션을 기준으로, 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로, 발언자의 얼굴영상과, 특정 입모양모션에 따른 음성데이터를 출력시킨다(S500).
1 : 전방위 영상 기반 화상회의 발언자 인식 장치
100 : 적외선센서부 200 : 입모양모션카메라부
300 : 스마트입모양모션제어부
100 : 적외선센서부 200 : 입모양모션카메라부
300 : 스마트입모양모션제어부
Claims (5)
- 발언자용 마이크 일측에 설치되어, 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시키는 적외선센서부(100)와,
회의장 일측에 위치되어, 적외선센서부를 통해 전송된 적외선에 따라 영상포커싱에 위치한 발언자 얼굴 중심으로 카메라를 포커싱시켜 얼굴 및 입모양 움직임을 영상촬영시키는 입모양모션카메라부(200)와,
입모양모션카메라부로부터 획득한 입모양모션이미지에서 배경영역을 제외한 입모양모션영역만을 추출시킨 후, 추출시킨 입모양모션영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션을 인식시켜 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로 전송시키도록 제어시키는 스마트입모양모션제어부(300)로 구성되는 전방위 영상 기반 화상회의 발언자 인식 장치에 있어서,
상기 스마트입모양모션제어부(300)는
입모양모션카메라부로부터 획득한 입모양모션이미지에서 미리 설정된 RGB 히스토그램을 이용하여 배경영역을 제외한 입모양모션영역만을 추출시키는 입모양모션영역추출부(310)와,
입모양모션영역추출부에서 추출된 입모양모션 영역에서 색상정보를 이용하여 HSV 히스토그램을 생성시키는 HSV 히스토그램생성부(320)와,
사람의 움직임에 따른 입모양모션패턴을 DB화시켜 기준입모양모션모델로 미리 설정시키는 기준입모양모션모델링설정부(330)와,
추출시킨 입모양모션영역을 정적 입모양모션 영역 또는 동적 입모양모션 영역으로 세분화하여 분류시킨 후, 분류시킨 정적 입모양모션 영역 및 동적 입모양모션 영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션이 어디에 매칭되는지를 인식시키는 스마트입모양모션인식부(340)와,
스마트입모양모션인식부에서 인식된 특정 입모양모션을 기준으로, 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로, 발언자의 얼굴영상과, 특정 입모양모션에 따른 음성데이터를 출력시키는 액션이벤트제어부(350)로 구성되는 것을 특징으로 하는 전방위 영상 기반 화상회의 발언자 인식 장치.
- 삭제
- 삭제
- 제1항에 있어서, 상기 스마트입모양모션인식부(340)는
추출시킨 입모양모션영역을 정적 입모양모션 영역 또는 동적 입모양모션 영역으로 세분화하여 분류시키는 입모양모션분류부(341)와,
입모양모션분류부를 통해 분류시킨 정적 입모양모션 영역 및 동적 입모양모션 영역에다가 기준입모양모션모델과 비교·분석하는 입모양모션비교분석부(342)와,
입모양모션비교분석부에서 비교분석된 특정 입모양모션을 기준으로 어떠한 입모양모션 유형인지를 매칭하여 인식시키는 입모양모션인식부(343)로 구성되는 것을 특징으로 하는 전방위 영상 기반 화상회의 발언자 인식 장치.
- 적외선센서부에서 입모양모션카메라부쪽으로 적외선을 쏴주어, 영상포커싱 위치를 설정시키는 단계(S100)와,
입모양모션카메라부에서 적외선센서부를 통해 전송된 적외선에 따라 영상포커싱에 위치한 발언자 얼굴 중심으로 카메라를 포커싱시켜 얼굴 및 입모양 움직임을 영상촬영시키는 단계(S200)와,
스마트입모양모션제어부의 입모양모션영역추출부에서 입모양모션카메라부로부터 획득한 입모양모션이미지에서 배경영역을 제외한 입모양모션영역만을 추출시키는 단계(S300)와,
스마트입모양모션제어부의 스마트입모양모션인식부에서 추출시킨 입모양모션영역을 정적 입모양모션 영역 또는 동적 입모양모션 영역으로 세분화하여 분류시킨 후, 분류시킨 정적 입모양모션 영역 및 동적 입모양모션 영역에다가 기준입모양모션모델과 비교·분석하여 특정 입모양모션이 매칭되는지를 인식시키는 단계(S400)와,
스마트입모양모션제어부의 액션이벤트제어부에서 스마트입모양모션인식부에서 인식된 특정 입모양모션을 기준으로, 원격지의 또 다른 원격회의용 디스플레이 기기쪽으로, 발언자의 얼굴영상과, 특정 입모양모션에 따른 음성데이터를 출력시키는 단계(S500)로 이루어지는 것을 특징으로 하는 전방위 영상 기반 화상회의 발언자 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170166303A KR102012719B1 (ko) | 2017-12-06 | 2017-12-06 | 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170166303A KR102012719B1 (ko) | 2017-12-06 | 2017-12-06 | 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190066659A KR20190066659A (ko) | 2019-06-14 |
KR102012719B1 true KR102012719B1 (ko) | 2019-08-21 |
Family
ID=66846387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170166303A KR102012719B1 (ko) | 2017-12-06 | 2017-12-06 | 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102012719B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102345666B1 (ko) * | 2020-09-28 | 2021-12-31 | 주식회사 어반컴플렉스 | Ai를 이용한 무인 회의 영상 제공 시스템 |
CN113473066A (zh) * | 2021-05-10 | 2021-10-01 | 上海明我信息技术有限公司 | 一种视频会议画面调整方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100041061A (ko) * | 2008-10-13 | 2010-04-22 | 성균관대학교산학협력단 | 화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말 |
KR101114989B1 (ko) | 2010-11-11 | 2012-03-06 | (주)유비쿼터스통신 | 전자발찌 감응형 cctv용 카메라를 이용한 성폭력범죄자 감시 시스템 |
KR101760345B1 (ko) * | 2010-12-23 | 2017-07-21 | 삼성전자주식회사 | 동영상 촬영 방법 및 동영상 촬영 장치 |
KR20140137080A (ko) * | 2013-05-22 | 2014-12-02 | (주)정직한기술 | 무선 리모컨 기능을 갖는 ip 카메라를 이용한 전자기기의 제어 방법 |
-
2017
- 2017-12-06 KR KR1020170166303A patent/KR102012719B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20190066659A (ko) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11087488B2 (en) | Automated gesture identification using neural networks | |
JP3688879B2 (ja) | 画像認識装置、画像認識方法及びその記録媒体 | |
KR102147052B1 (ko) | 얼굴 영상 기반의 감정 인식 시스템 및 방법 | |
CN111833899B (zh) | 一种基于多音区的语音检测方法、相关装置及存储介质 | |
CN109583304A (zh) | 一种基于结构光模组的快速3d人脸点云生成方法及装置 | |
KR20140055819A (ko) | 얼굴인식장치 및 그 제어방법 | |
CN103079034A (zh) | 一种感知拍摄方法及系统 | |
Cristani et al. | Look at who’s talking: Voice activity detection by automated gesture analysis | |
TW201405445A (zh) | 基於雙攝影機之真實人臉識別系統及其方法 | |
KR101187600B1 (ko) | 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법 | |
CN116825365B (zh) | 基于多角度微表情的心理健康分析方法 | |
CN107798279A (zh) | 一种人脸活体检测方法及装置 | |
KR102012719B1 (ko) | 전방위 영상 기반 화상회의 발언자 인식 장치 및 방법 | |
TW202303444A (zh) | 影像式情緒辨識系統和方法 | |
Itkarkar et al. | Hand gesture to speech conversion using Matlab | |
CN112639964A (zh) | 利用深度信息识别语音的方法、系统及计算机可读介质 | |
US11842745B2 (en) | Method, system, and computer-readable medium for purifying voice using depth information | |
JP2005276230A (ja) | 画像認識装置 | |
KR101480816B1 (ko) | 입술 영상에서 추출된 다수의 입술 움직임 특징을 이용한 시각적 음성인식 시스템 | |
JP2009044526A (ja) | 撮影装置、撮影方法、人物認識装置および人物認識方法 | |
Ouellet et al. | Multimodal biometric identification system for mobile robots combining human metrology to face recognition and speaker identification | |
CN112926367A (zh) | 一种活体检测的设备及方法 | |
JP3784474B2 (ja) | ジェスチャー認識方法および装置 | |
Komiya et al. | Image-based attention level estimation of interaction scene by head pose and gaze information | |
Goecke | Current trends in joint audio-video signal processing: A review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |