KR101349769B1 - 음성 및 모션 인식을 이용한 화상서비스 제공 시스템 - Google Patents
음성 및 모션 인식을 이용한 화상서비스 제공 시스템 Download PDFInfo
- Publication number
- KR101349769B1 KR101349769B1 KR1020130068596A KR20130068596A KR101349769B1 KR 101349769 B1 KR101349769 B1 KR 101349769B1 KR 1020130068596 A KR1020130068596 A KR 1020130068596A KR 20130068596 A KR20130068596 A KR 20130068596A KR 101349769 B1 KR101349769 B1 KR 101349769B1
- Authority
- KR
- South Korea
- Prior art keywords
- motion
- voice
- recognition
- discussion
- region
- Prior art date
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 8
- 210000000746 body region Anatomy 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000037237 body shape Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 8
- 238000007405 data analysis Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000019771 cognition Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000011410 subtraction method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
- H04L65/4038—Arrangements for multi-party communication, e.g. for conferences with floor control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 음성 및 모션 인식을 이용한 화상서비스 제공 시스템에 관한 것이다. 보다 상세하게는 음성 및 모션인식을 통한 시스템 제어로 별도의 토론 진행자가 필요없어 통신라인에 의한 효율성이 증가하며 인건비 감축과 자기주도적 토론이 가능하도록 하고, 참석자의 음성 및 모션을 인식하여 역동적으로 토론을 진행함으로써 토론참여에 재미를 부여하고 참석자의 주의 집중도 및 참여도를 극대화시킬 수 있으며, 화상토론 참석자별 음성과 모션을 실시간으로 인식 및 분석하여 결과에 따른 실시간 토론평가 레포트를 제공함으로써, 토론의 집중도를 높이고 객관적 평가를 즉시 받을 수 있을 뿐만 아니라, 모션 인식 영역 내 임계영역 이상 및 임계시간 이상의 연속 모션이 인식된 경우 모션에 대한 동작분석을 통해 토론자의 발언권 요청을 제어하고, 인식된 음성 결과와 기 설정되어 저장된 발언권 요청 문장과의 일치여부를 판단하여 발언권 요청을 제어함으로써 발언권의 제한과 획득, 화면 포커스 전환이 자동으로 이루어지는 음성 및 모션 인식을 이용한 화상서비스 제공 시스템에 관한 것이다.
이를 위해 본 발명은 모션 인식 영역 내에서 이전 프레임 영상 내 픽셀을 모두 배경영역으로 설정하고, 현재 프레임의 영상과 비교하여 동일한 위치에 있는 픽셀의 화소색상 차이가 임계값 이상이 될 경우 토론자가 움직인 것으로 판단하고 움직임 영역을 추출하는 움직임 영역 추출부를 포함하는 모션 인식 모듈; 토론자가 발성한 음성으로부터 인식 대상이 되는 구간을 찾아 잡음성분을 제거하는 전처리부, 상기 전처리부로부터 입력된 음성을 음성모델 데이터베이스와 비교하여 가장 유사도 높은 단어를 인식결과로 출력하는 인식부를 포함하는 음성 인식 모듈; 상기 모션 인식 모듈로부터 상기 모션 인식 영역 내 임계영역 이상 및 임계시간 이상의 연속 모션이 인식된 경우 모션에 대한 동작분석을 통해 토론자의 발언권 요청을 제어하고, 상기 음성 인식 모듈을 통해 인식된 음성 결과와 기 설정되어 저장된 발언권 요청 문장과의 일치여부를 판단하여 발언권 요청을 제어하는 발언권 요청 제어 모듈; 및 상기 모션 인식 모듈과 상기 음성 인식 모듈을 통해 토론자의 집중도, 토론 주도권, 발언횟수를 포함한 토론자의 참여정보를 수치화된 데이터와 그래프로 실시간으로 작성하여 토론 종료 직후 레포트 형태로 제공하며, 음성 최고 및 최저치, 모션변화를 포함하는 특이점을 분석하여 토론영상의 부분 재생이 가능하도록 하고, 토론자의 발언시간 중 음성 대역폭 상승 시점의 영상을 하이라이트 영상으로 제공하여 토론 성향과 토론 참여도를 분석하여 제공하는 토론 역량강화 모듈을 포함하는 것을 특징으로 하는 음성 및 모션 인식을 이용한 화상서비스 시스템을 제공한다.
이를 위해 본 발명은 모션 인식 영역 내에서 이전 프레임 영상 내 픽셀을 모두 배경영역으로 설정하고, 현재 프레임의 영상과 비교하여 동일한 위치에 있는 픽셀의 화소색상 차이가 임계값 이상이 될 경우 토론자가 움직인 것으로 판단하고 움직임 영역을 추출하는 움직임 영역 추출부를 포함하는 모션 인식 모듈; 토론자가 발성한 음성으로부터 인식 대상이 되는 구간을 찾아 잡음성분을 제거하는 전처리부, 상기 전처리부로부터 입력된 음성을 음성모델 데이터베이스와 비교하여 가장 유사도 높은 단어를 인식결과로 출력하는 인식부를 포함하는 음성 인식 모듈; 상기 모션 인식 모듈로부터 상기 모션 인식 영역 내 임계영역 이상 및 임계시간 이상의 연속 모션이 인식된 경우 모션에 대한 동작분석을 통해 토론자의 발언권 요청을 제어하고, 상기 음성 인식 모듈을 통해 인식된 음성 결과와 기 설정되어 저장된 발언권 요청 문장과의 일치여부를 판단하여 발언권 요청을 제어하는 발언권 요청 제어 모듈; 및 상기 모션 인식 모듈과 상기 음성 인식 모듈을 통해 토론자의 집중도, 토론 주도권, 발언횟수를 포함한 토론자의 참여정보를 수치화된 데이터와 그래프로 실시간으로 작성하여 토론 종료 직후 레포트 형태로 제공하며, 음성 최고 및 최저치, 모션변화를 포함하는 특이점을 분석하여 토론영상의 부분 재생이 가능하도록 하고, 토론자의 발언시간 중 음성 대역폭 상승 시점의 영상을 하이라이트 영상으로 제공하여 토론 성향과 토론 참여도를 분석하여 제공하는 토론 역량강화 모듈을 포함하는 것을 특징으로 하는 음성 및 모션 인식을 이용한 화상서비스 시스템을 제공한다.
Description
본 발명은 음성 및 모션 인식을 이용한 화상서비스 제공 시스템에 관한 것이다. 보다 상세하게는 음성 및 모션인식을 통한 시스템 제어로 별도의 토론 진행자가 필요없어 통신라인에 의한 효율성이 증가하며 인건비 감축과 자기주도적 토론이 가능하도록 하고, 참석자의 음성 및 모션을 인식하여 역동적으로 토론을 진행함으로써 토론참여에 재미를 부여하고 참석자의 주의 집중도 및 참여도를 극대화시킬 수 있으며, 화상토론 참석자별 음성과 모션을 실시간으로 인식 및 분석하여 결과에 따른 실시간 토론평가 레포트를 제공함으로써, 토론의 집중도를 높이고 객관적 평가를 즉시 받을 수 있을 뿐만 아니라, 모션 인식 영역 내 임계영역 이상 및 임계시간 이상의 연속 모션이 인식된 경우 모션에 대한 동작분석을 통해 토론자의 발언권 요청을 제어하고, 인식된 음성 결과와 기 설정되어 저장된 발언권 요청 문장과의 일치여부를 판단하여 발언권 요청을 제어함으로써 발언권의 제한과 획득, 화면 포커스 전환이 자동으로 이루어지는 음성 및 모션 인식을 이용한 화상서비스 제공 시스템에 관한 것이다.
민주적 소통이 화두가 되면서 소통능력은 한 개인의 총체적 역량을 가늠하는 척도가 되고 있다. 그에 따라 사회의 각 분야에서 소통 역량을 갖춘 사람을 필요로 하지만 토론 능력을 향상시킬 수 있는 적절한 교육수단이 부족한 것이 현실이다.
건전한 소통의 장을 마련하여 사회 다방면에서의 토론문화를 발전시키기 위해서는 언제, 어디서든, 쉽고, 편하고, 빠르게 토론에 참여할 수 있는 토론의 장을 마련하는 것이 절실하다 하겠다.
이를 위해 일반적인 화상토론 솔루션이 소개되어 있다. 일반적인 화상토론 솔루션은 토론 진행을 위해 반드시 진행자가 수동으로 시스템을 제어해야 하고, 주목도, 주의집중도 등을 체크하지 못해 기술의 한계를 보이고 있으며, 화상토론이 완료된 후 결과레포트 제공에 있어서 상당한 시일이 지난 후 토론심사자를 통해 전달받는 번거로움이 있다.
선행기술로 대한민국 등록특허공보 제0987189호(토론 솔루션 제공시스템, 이하 "선행기술1")가 개시되어 있다. 선행기술1은 특정 주제별로 토론방을 개설하고, 미리 지정된 토론방식에 따라 발언권 방식을 설정하며, 토론솔루션 제공시스템에 미리 설정된 판단기준에 따라 점수를 산정하는 기술을 개시하고 있다. 그러나, 선행기술1은 토론 참가자의 음성과 모션 등을 인식하여 토론 참가자의 화면을 제어하는 기술이 개시되어 있지 않아 진행자가 반드시 필요하다는 한계가 있다.
다른 선행기술로 대한민국 공개특허공보 제2012-0076632호(온라인 토론능력 인증방법과 상기 방법을 수행할 수 있는 시스템, 이하 "선행기술2")가 개시되어 있다. 선행기술2는 온라인 토론을 위한 토론 유형과 토론 상대방 선택, 토론 진행, 토론 동영상 녹화 등의 단계가 개시되어 있다. 그러나, 선행기술2는 화상토론 종료 후 동영상을 평가자에게 전송하여 점수로 평가하는 방식을 취하고 있어, 각 참석자별로 음성과 모션 등을 인식하여 참석자의 집중도 및 소통 역량을 수치화하여 화상토론 직후 레포트 형태로 제공할 수 없어 결과평가를 위해 상당한 시간이 소요될 수밖에 없는 한계가 있다.
따라서, 참석자의 음성과 모션 인식을 통해 시스템을 제어하여 별도의 진행자가 필요없고, 토론 참여에 재미를 부여하고 참석자의 주의 집중도와 참여도를 향상시킬 수 있으면서도, 화상토론 참석자별 음성과 모션을 실시간으로 인식하고 분석하여 토론결과를 실시간으로 레포트 형태로 제공할 수 있는 기술에 대한 개발 필요성이 대두된다.
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 특히 별도의 토론 진행자가 필요없어 인건비 감축과 자기주도적 토론이 가능하도록 하고, 토론참여에 재미를 부여하고 참석자의 주의 집중도 및 참여도를 극대화시킬 수 있으며, 토론의 집중도를 높이고 객관적 평가를 즉시 받을 수 있을 뿐만 아니라, 발언권의 제한과 획득, 화면 포커스 전환이 자동으로 이루어지는 음성 및 모션 인식을 이용한 화상서비스 제공 시스템을 제공하는 데 그 목적이 있다.
상기 목적을 달성하기 위해 안출된 본 발명에 따른 음성 및 모션 인식을 이용한 화상서비스 제공 시스템은 모션 인식 영역 내에서 이전 프레임 영상 내 픽셀을 모두 배경영역으로 설정하고, 현재 프레임의 영상과 비교하여 동일한 위치에 있는 픽셀의 화소색상 차이가 임계값 이상이 될 경우 토론자가 움직인 것으로 판단하고 움직임 영역을 추출하는 움직임 영역 추출부를 포함하는 모션 인식 모듈; 토론자가 발성한 음성으로부터 인식 대상이 되는 구간을 찾아 잡음성분을 제거하는 전처리부, 상기 전처리부로부터 입력된 음성을 음성모델 데이터베이스와 비교하여 가장 유사도 높은 단어를 인식결과로 출력하는 인식부를 포함하는 음성 인식 모듈; 상기 모션 인식 모듈로부터 상기 모션 인식 영역 내 임계영역 이상 및 임계시간 이상의 연속 모션이 인식된 경우 모션에 대한 동작분석을 통해 토론자의 발언권 요청을 제어하고, 상기 음성 인식 모듈을 통해 인식된 음성 결과와 기 설정되어 저장된 발언권 요청 문장과의 일치여부를 판단하여 발언권 요청을 제어하는 발언권 요청 제어 모듈; 및 상기 모션 인식 모듈과 상기 음성 인식 모듈을 통해 토론자의 집중도, 토론 주도권, 발언횟수를 포함한 토론자의 참여정보를 수치화된 데이터와 그래프로 실시간으로 작성하여 토론 종료 직후 레포트 형태로 제공하며, 음성 최고 및 최저치, 모션변화를 포함하는 특이점을 분석하여 토론영상의 부분 재생이 가능하도록 하고, 토론자의 발언시간 중 음성 대역폭 상승 시점의 영상을 하이라이트 영상으로 제공하여 토론 성향과 토론 참여도를 분석하여 제공하는 토론 역량강화 모듈을 포함하는 것을 특징으로 한다.
또한, 상기 모션 인식 모듈은 상기 움직임 영역 추출부에서 추출된 움직임 영역에서 모폴로지 연산을 통해 노이즈를 제거하고, 피부색과 상관관계가 높고 G와 B보다 분포범위가 작은 R과, 컬러공간에서 색상의 순도를 나타내는 H요소 간의 비(H/R)로 피부색을 검출하여 얼굴 후보 영역을 추출하는 얼굴 후보 영역 추출부, 상기 얼굴 후보 영역 추출부에 의해 추출된 얼굴 후보 영역 중 상, 하 픽셀의 색상 차이가 상대적으로 작은 팔과 다리를 제외하고 상, 하 픽셀의 색상 차이가 상대적으로 큰 얼굴 영역만 추출하는 얼굴 분석 및 추출부, 상기 얼굴영역의 하부에 존재하는 픽셀을 토론자의 상체범위로 인식하되, 샘플링된 사람 체형에서 상체가 차지하는 비율 또는 얼굴영역을 기준으로 한 어깨위치를 포함하는 특징점으로 토론자의 예상 상체 범위를 추출하는 토론자 상체 영역 추출부, 및 이전 영상과 현재 영상의 연속된 프레임간의 차 영상으로 움직임 탐색시 변화가 임계값 미만이 되는 영역인 동시에 상기 토론자 상체 영역의 나머지 영역을 배경영역으로 설정하고, 상기 배경영역에서만 움직임 탐색을 수행하는 모션 인식 영역 추출부를 더 포함하는 것을 특징으로 한다.
또한, 상기 전처리부는 잡음 제거 전의 음성신호를 고속푸리에변환한 후 여과기 특성 주파수를 이용하여 잡음성분을 제거하고, 역고속푸리에변환을 거칠 수 있다.
본 발명에 의하면 음성 및 모션인식을 통한 시스템 제어로 별도의 토론 진행자가 필요없어 통신라인에 의한 효율성이 증가하며 인건비 감축과 자기주도적 토론이 가능하도록 하는 효과가 있다.
또한, 본 발명에 의하면 참석자의 음성 및 모션을 인식하여 토론참여에 재미를 부여하고 참석자의 주의 집중도 및 참여도를 극대화시킬 수 있는 효과가 있다.
또한, 본 발명에 의하면 화상토론 참석자별 음성과 모션을 실시간으로 인식 및 분석하여 결과에 따른 실시간 토론평가 레포트를 제공함으로써, 토론의 집중도를 높이고 객관적 평가를 즉시 받을 수 있는 효과가 있다. 여기서 실시간 토론평가 레포트 이외의 상세한 레포팅은 서버에 녹화된 파일을 토론 전문가에게 전송함으로써, 본 시스템 사용자는 별도의 첨부없이 자세한 결과지를 받아볼 수 있으며, 이는 평가의 객관성 및 전문성을 높일 수 있으며 본 시스템에 대한 신뢰도를 높일 수 있도록 한다.
또한, 본 발명에 의하면 모션 인식 영역 내 임계영역 이상 및 임계시간 이상의 연속 모션이 인식된 경우 모션에 대한 동작분석을 통해 토론자의 발언권 요청을 제어하고, 인식된 음성 결과와 기 설정되어 저장된 발언권 요청 문장과의 일치여부를 판단하여 발언권 요청을 제어함으로써 발언권의 제한과 획득, 화면 포커스 전환이 자동으로 이루어지는 효과가 있다.
도 1은 본 발명의 바람직한 실시예에 따른 음성 및 모션 인식을 이용한 화상서비스 제공 시스템의 구성도,
도 2는 본 발명의 바람직한 실시예에 따른 음성 및 모션 인식을 이용한 화상서비스 제공 시스템의 전체 흐름도,
도 3은 움직임 영역 추출단계를 나타낸 도면,
도 4에 블록기반 프로세싱을 도시한 도면,
도 5는 영상정보 내 움직임 영역을 추출하는 과정을 도시한 도면,
도 6은 인터넷에서 획득한 얼굴영상 이미지를 도시한 도면,
도 7은 RGB 공간에서의 피부색 분포를 도시한 그래프,
도 8은 움직임 영역 내 피부색 영역 추출과정을 도시한 도면,
도 9는 이러한 얼굴 비율 분석과정을 도시한 도면,
도 10은 상체 영역 범위 추출과정을 도시한 도면,
도 11은 모션 인식 영역 검출결과를 도시한 도면,
도 12는 음성인식 기술을 전처리부와 인식부로 구분한 개념도,
도 13은 분산음성인식의 구조를 도시한 개념도,
도 14는 스펙트럼 차감법의 블록도,
도 15는 스펙트럼 차감법을 이용하여 입력 스펙트럼을 여과하여 출력 스펙트럼을 출력하는 과정을 도시한 개념도,
도 16은 음성입력과 인식 및 데이터 작성과정에 이르는 과정을 도시한 흐름도,
도 17은 모션과 음성 추출 및 등록의 흐름도,
도 18은 화상토론시스템 내 음성 및 모션인식을 통한 발언권 제한, 획득 및 데이터처리에 관한 흐름도이다.
도 2는 본 발명의 바람직한 실시예에 따른 음성 및 모션 인식을 이용한 화상서비스 제공 시스템의 전체 흐름도,
도 3은 움직임 영역 추출단계를 나타낸 도면,
도 4에 블록기반 프로세싱을 도시한 도면,
도 5는 영상정보 내 움직임 영역을 추출하는 과정을 도시한 도면,
도 6은 인터넷에서 획득한 얼굴영상 이미지를 도시한 도면,
도 7은 RGB 공간에서의 피부색 분포를 도시한 그래프,
도 8은 움직임 영역 내 피부색 영역 추출과정을 도시한 도면,
도 9는 이러한 얼굴 비율 분석과정을 도시한 도면,
도 10은 상체 영역 범위 추출과정을 도시한 도면,
도 11은 모션 인식 영역 검출결과를 도시한 도면,
도 12는 음성인식 기술을 전처리부와 인식부로 구분한 개념도,
도 13은 분산음성인식의 구조를 도시한 개념도,
도 14는 스펙트럼 차감법의 블록도,
도 15는 스펙트럼 차감법을 이용하여 입력 스펙트럼을 여과하여 출력 스펙트럼을 출력하는 과정을 도시한 개념도,
도 16은 음성입력과 인식 및 데이터 작성과정에 이르는 과정을 도시한 흐름도,
도 17은 모션과 음성 추출 및 등록의 흐름도,
도 18은 화상토론시스템 내 음성 및 모션인식을 통한 발언권 제한, 획득 및 데이터처리에 관한 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 본 발명의 바람직한 실시예에 따른 음성 및 모션 인식을 이용한 화상서비스 제공 시스템의 구성도이다.
본 발명의 바람직한 실시예에 따른 음성 및 모션 인식을 이용한 화상서비스 제공 시스템은, 도 1을 참조하면, 웹서버(10)와 스트리밍 서버(20) 및 DB서버(30)를 포함한다. 본 발명이 제공할 수 있는 화상서비스로는 화상토론과 화상회의를 비롯하여 화상을 이용하여 다자간에 제공할 수 있는 모든 서비스가 포함되며, 이하에서는 편의상 화상토론을 예로 들어 설명하기로 한다.
웹서버(10)는 영상 최적화 모듈, 발언권 요청제어 모듈, 발언권 자동포커스 모듈, 음성 텍스트 변환 모듈, 토론 역량강화 모듈, 모션 인식 모듈 및 음성 인식 모듈을 포함한다.
영상 최적화 모듈은 카메라 각도를 움직이지 않고 입력받은 영상으로부터 토론자의 위치를 화면 중앙으로 위치시켜 최적화된 상태의 영상을 제공한다.
발언권 요청 제어 모듈은 모션인식을 통해 모션인지 영역 내 임계영역 이상 임계시간 이상의 연속 모션이 인식된 경우, 모션에 대해 일정의 동작분석을 통해 발언권 요청을 제어한다. 일례로, 임계영역은 모션인지 영역 전체 대비 대략 10%로 설정될 수 있고, 임계시간은 모션인지 영역 내에 머무른 시간으로 대략 2초로 설정될 수 있으며, 여기서 임계영역과 임계시간의 수치를 한정하는 것은 아니다.
또한, 발언권 요청 제어 모듈은 음성인식을 통해 인식된 음성 결과를 시스템에 설정한 발언권 요청 문장과 일치할 경우 발언권 요청을 제어한다.
발언권 자동포커스 모듈은 비형식 토론의 경우 발언자의 음성 및 모션을 인식하여 인지된 토론자의 영상을 자동포커스 처리하여 실제 대화하는 듯한 시선처리가 가능하도록 한다.
음성 텍스트 변환 모듈은 특정 시간동안 입력받은 음성을 음성모델 DB와 비교하여 실시간으로 텍스트 변환처리를 수행함으로써, 토론 도중 모든 발언 내용을 텍스트로 변환할 수 있고, 분석보고서 내에 최종결론 주장의 입력이 가능하도록 한다. 또한 입력되는 한국어 음성 정보는 영어, 일본어, 중국어 등으로 변환 가능하며 이는 토론 도중 실시간으로 자막형태로 제공된다.
토론 역량강화 모듈은 토론진행시 집중도, 토론 주도권, 발언횟수 등에 대한 토론자의 참여정보를 수치화한 데이터를 분석보고서로 제공하고, 토론자의 발언시간 중 음성 대역폭 상승 시점의 영상을 하이라이트 영상으로 제공한다.
스트리밍 서버(20)는 토론 전체의 녹화정보를 저장한다.
DB(Database)서버(30)는 주제 및 방식 DB, 음성 및 모션 DB, 데이터분석 DB를 포함한다.
주제 및 방식 DB는 토론 주제와 방식을 저장한다. 토론방식으로는 링컨-더글라스식 토론, 의회식 토론, 정책토론, 아시아 의회식 토론, 민사식 토론, 칼 포퍼식 토론, 비형식 자유토론 등 다양한 방식이 있으며, 주제 및 방식 DB에 기 저장되어 선택가능하도록 한다.
음성 및 모션 DB는 사용자로부터 수집한 음성정보와 모션정보를 저장한다.
데이터분석 DB는 토론 중 인식된 음성데이터와 모션데이터를 분석하고 저장하며, 입력된 음성내용을 처리하여 텍스트화함으로써 결과레포트 형태로 제공한다.
본 발명의 바람직한 실시예에 따른 음성 및 모션 인식을 이용한 화상서비스 제공 시스템은 음성 및 모션인식을 통한 화면 포커스 자동전환으로 흥미와 집중도를 높일 수 있는 토론환경을 제공한다. 입력받은 음성 데이터 내의 잡음이 제거된 순수 음성 데이터의 특징을 추출하여 토론 성향 및 토론 참여도 등을 분석한다.
또한, 본 발명은 웹 카메라와 헤드셋, 테블릿 PC, 스마트폰을 활용하여 실시간 토론을 수행하고 저장된 음성과 화상 데이터를 이용하여 과학적 척도를 이용하여 자동으로 토론능력을 분석하고 평가한다.
더불어, 본 발명은 영상 제어기술과 음성 제어기술을 통해 자동평가 레포트를 제공한다. 토론 종료 후 음성과 모션의 수치를 그래프 형태로 실시간 제공하여 음성 최고 및 최저치, 모션변화 등의 특이점을 분석하여 토론영상의 부분 재생이 가능하도록 하고 하이라이트 부분의 재생을 통해 실시간 분석자료로 활용함으로써, 토론 성향과 토론 참여도 등을 분석하여 제공한다.
도 2는 본 발명의 바람직한 실시예에 따른 음성 및 모션 인식을 이용한 화상서비스 제공 시스템의 전체 흐름도이다. 도 2에서 A, B는 토론 참가자를, C는 본 발명에 따른 화상토론 시스템을 의미한다.
도 2를 참조하면, 토론 참가자가 화상서비스 제공 시스템에 접속하여 주제 및 방식 DB에서 주제(Topic)와 방식(Type)을 선정한다. 그리고, 음성 및 모션 DB에서는 음성, 모션의 등록을 위한 정보를 전송하고, 토론 참가자의 음성과 모션으로부터 벡터값을 계산하여 화상서비스 제공 시스템으로 전송한다.
토론과 녹화가 시작되면 토론 참가자가 발언(입론)하고, 토론 참가자의 모션과 음성을 인식하여 음성 및 모션 DB에 저장된 데이터와 비교함으로써 모션 사용자를 확인한다.
토론 참가자가 발언권을 요청하면 화상토론 시스템은 발언권 요청에 대한 승낙여부를 결정하여 승낙할 경우 발언권을 부여하여 발언이 이루어지도록 하고, 거절할 경우 토론은 계속 진행된다.
토론 참가자가 최종 결론 주장을 요청하면 결론 발언이 이루어진다. 이때, 음성인식 자동 레포팅이 이루어지고 토론과 녹화가 종료된다. 화상서비스 제공 시스템은 데이터분석 DB에 저장된 음성 데이터를 분석하여 텍스트화함으로써 레포트 형식으로 제공한다. 토론을 관전중이던 시스템 사용자는 실시간 투표형태로 토론에 대한 승/패 등의 의견을 피력할 수 있으며 이는 토론결과에 참고되는 형태이다.
다음으로, 모션 인식 모듈의 모션 인식과 음성 인식 모듈의 음성 인식에 대해 설명한다.
1. 모션 인식
모션 인식은 이전 영상과 현재 영상의 비교를 통해 움직임을 추정하고 이를 바탕으로 배경 영역과 토론자 영역을 구분하며, 토론자 영역은 1개 이상으로 구분 가능하다.
배경(Background) 영역은 고정된 것으로, 화면의 변화가 없는 부분이며 움직임 탐색이 이루어진다. 현재 화면과 이전 화면의 같은 공간위치에 있는 화소색상의 차이값을 움직임 추정 차(-) 신호로 사용하는 토론자 영역(Foreground)은 배경과 색채가 같이 포함된 경계영역과 토론자 해당 영역만으로 구성된 토론자 내부 영역으로 구분되며, 토론자 내부 영역은 움직임 탐색이 이루어지지 않는다.
(1) 객체(토론자) 인식
움직임 추출을 하기 전에 입력된 이전 영상 내 배경영상을 하나의 모자이크 영상으로 만든 후 그 상으로부터 현재 영상의 배경영상을 찾아내고 이를 현재 영상과 비교하여 움직임 영역을 추출한다.
모션 인식을 위한 얼굴영역 추출단계는 움직임 영역 추출단계, 얼굴 후보영역 추출단계, 얼굴 분석 및 추출단계로 구분되며, 입력영상 내 얼굴 후보 이미지는 미리 작성된 규칙에 따라 검출된다.
배경 프레임과 현재 프레임의 차(-)연산을 통해 움직임 영역을 추출하고 노이즈를 제거한 후 HSI(Hue, Saturation, Intensity) 컬러공간을 이용하여 피부색 영역만을 얻고 이 결과에 레이블링 작업을 하여 얼굴 후보 영역을 추출한다.
① 움직임 영역 추출단계
모션 인식 범위내에서 이전 프레임의 영상정보와 현재 프레임의 영상정보의 차 연산 값이 임계값 이상이 될 경우 움직임으로 판단한다. 각각의 영상정보는 24비트 컬러 정보로서 한 픽셀 당 RGB 값을 가지고 있으며, 이전 프레임 영상 내 픽셀이 모두 배경영역으로 판정되고, 두 개의 영상정보 내 같은 위치에 있는 픽셀의 화소색상 차이(수학식 1)를 이용하여 그 차가 크게 나타나는 부분을 움직임 영역으로 추출한다.
IC(x, y)는 현재 화면의 수평 x, 수직 y 위치에 있는 화소값을 의미하고, IR(x, y)는 참조 화면의 수평 x, 수직 y 위치에 있는 화소값을 의미한다.
도 3은 움직임 영역 추출단계를 나타낸 도면으로, 좌측 도면은 이전 프레임의 영상정보(배경영역)이고, 중앙 도면은 현재 프레임의 영상정보(객체인지)이며, 우측 도면은 움직임 영역을 추출하는 것이다.
움직임 영역 추출단계의 속도를 향상시키기 위해 여러 픽셀들을 한 블록으로 정하고, 블록 대표값을 구하여 프로세싱하는 블록기반 프로세싱을 이용하는 것이 바람직하다. 블록에 속해 있는 픽셀들의 화소값의 평균값을 대표값으로 정하여 블록 매칭시 블록 내 모든 픽셀의 평균값을 비교하도록 하여 계산량을 감소시킨다. 도 4에 블록기반 프로세싱이 도시되어 있다.
도 5는 영상정보 내 움직임 영역을 추출하는 과정을 도시한 것으로, 붉은 영역은 이전 영상정보, 푸른 영역은 새로운 움직임 영역(차 연산 영역), 노란 영역은 이전 영상정보 내 새로운 움직임 영역을 나타낸다.
② 얼굴 후보 영역 추출단계
움직임 영역에서 노이즈를 제거하기 위해 모폴로지 연산을 한 후 HSI 컬러공간을 이용하여 얼굴영역만을 추출하고 난 뒤, 얼굴 후보 영역을 추출하기 위해 레이블링 과정을 거친다.
피부색 픽셀에 대한 RGB 컬러값을 조사하기 위해 컬러 프로파일한 결과, 피부색과 상관관계가 높고 G와 B보다 분포범위가 작은 R을 피부색 검출인자로 사용하는 것이 바람직함을 확인하였다.
도 6은 인터넷에서 획득한 얼굴영상 이미지를 도시한 도면이다.
도 7은 RGB 공간에서의 피부색 분포를 도시한 그래프이고, 도 8은 움직임 영역 내 피부색 영역 추출과정을 도시한 도면이다.
RGB의 세 가지 요소로 표현되는 컬러공간을 이용하는 입력영상 내 명암에 관계없이 피부색을 찾아내고 피부색을 효율적으로 검출하기 위하여 색의 순도를 컬러정보에서 쉽게 분리할 수 있는 HSI 컬러공간으로 변환하여 피부색을 검출한다.
HSI 컬러공간에서 명도/강도를 표현하는 I요소와 채도를 표현하는 S요소를 제외하고 색상의 순도를 나타내는 H요소를 피부색 검출인자로 채택한다.
수학식 2는 HSI 컬러공간 변환식이고, 수학식 3은 피부색 검출공식이다.
(i, j는 처리영상의 행과 열을 의미함)
HSI 공간에서 빛의 영향에 덜 민감하며 색상을 나타내는 H와 R의 비에 의하여 피부색을 검출함으로써, 피부색 오검출을 줄이고 다양한 피부색과 명도차가 있는 피부색의 검출도 가능해진다.
③ 얼굴 분석 및 추출단계
얼굴 후보 영역 추출단계에서 레이블링된 얼굴 후보 영역 중 실제 얼굴 영역임을 판단하기 위하여 얼굴 비율 분석과 얼굴의 특징점 분석을 이용한다.
사람의 얼굴은 타원 모양으로 근사화될 수 있으며, 얼굴 너비와 길이의 비가 대략 일정하다는 연구결과에 근거하여 얼굴 후보 영역의 너비와 길이의 비를 사용한다. 얼굴의 가로(Width), 세로(Height) 비율과, 외곽 근접 사각형의 넓이(A1), 얼굴 타원의 넓이(A2)의 비를 이용하여, 얼굴 후보 영역에 있을 수 있는 팔, 다리 등과 같은 비율이 맞지 않는 객체를 걸러낸다. 도 9는 이러한 얼굴 비율 분석과정을 도시한 도면이다.
아래의 수학식 4는 가로 경계성으로 특징점을 분석하는 수식이다.
((x0, y0)는 타원의 중심, a, b는 각각 타원의 장축과 단축의 길이)
인접 외곽 사각형의 픽셀(A1) 중 타원에 속하는 픽셀(A2)은 특징점 분석에 관한 수학식 4를 통해 가로 경계성을 확인하여 얼굴영역을 추출한다. 가로 경계성은 위, 아래 픽셀의 색상 차이가 큰 부분만을 표현한 것으로, 팔이나 다리의 경우 일정한 색상을 나타내기 때문에 가로 경계성이 거의 없지만, 얼굴의 경우 눈, 코, 입 등에 많이 분포하고 있으므로 팔이나 다리를 제외한 얼굴 후보 영역의 추출이 가능해진다.
④ 토론자 상체 영역 추출
도 10은 상체 영역 범위 추출과정을 도시한 도면이다.
예상 상체 범위 내 이전 프레임의 영상정보와 현재 프레임의 영상정보의 차 연산 값이 발생하는 경우 얼굴영역 하단 방향 내에 존재하는 각 픽셀은 토론자의 상체범위로 인식된다.
추출된 얼굴영역 하단 방향 내에서 토론자의 상체범위를 추출하기 위하여 다수의 사람 체형을 샘플링하고 각 체형별 상체가 차지하는 일정 비율 혹은 얼굴영역을 기준으로 하였을 때의 어깨 위치 등의 특징을 찾아 토론자의 예상 상체 범위를 추출한다.
(2) 모션 인식 영역 추출
(1)의 인지방식을 이용하여 입력영상을 토론자가 차지하는 토론자 내부영역, 경계영역, 배경영역을 구분한 후 움직임 추정이 필요한 배경영역을 블록 단위로 분할하고 연산처리하여 모션 인식 영역을 추출한다.
입력영상은 토론자가 차지하는 토론자 내부영역, 배경만으로 구성된 배경영역, 토론자와 배경이 같이 존재하는 경계영역으로 구성되어 있으며, 토론자 내부영역과 경계영역은 모션인식을 수행하지 않음으로써 움직임 추정 탐색수를 크게 줄일 수 있다.
인식되는 토론자 내부영역이 이전 영상 내 인식되었던 영역과 상이할 경우 새로 인식된 영역을 토론자 내부영역으로 변경하고 모션 인식 영역을 새로 추출하여 효율적인 인식 영역을 유지하는 것이 바람직하다.
도 11은 모션 인식 영역 검출결과를 도시한 도면이다.
도 11에서 붉은 부분은 토론자 인식범위(토론자 내부영역)를 나타내고, 초록 부분은 경계영역을 나타낸다.
이전 영상과 현재 영상의 연속된 프레임간의 차 영상으로 움직임을 탐색하였을 때 변화가 거의 없고, (1)의 인지방식을 이용하였을 때 토론자가 차지하지 않는 나머지 영역을 배경영역으로 구분하고, 이를 모션인지 영역으로 정의하여 움직임 탐색을 수행한다.
경계영역은 라벨링 블록 내 배경영역 중 토론자 주변 거리영역 10%를 경계영역으로 판정하고 그 블록에 대하여 움직임 탐색을 수행하지 않는다.
2. 음성 인식
음성 인식을 위해 입력받은 음성을 분석하고 특징을 추출한 다음 음성인식 데이터베이스 서비스가 가능한 업체 내 수집된 음성모델 데이터베이스와의 유사도를 측정하여 가장 유사한 문자 혹은 명령어로 변환하여 음성인식률을 향상시키는 방식으로 입력음성을 텍스트로 전환한다. 음성인식 기술은 일종의 패턴인식 과정으로 사람마다 목소리와 발음, 억양 등이 다르기 때문에 최대한 많은 사람들로부터 음성 데이터를 수집해 이로부터 공통된 특징으로 추출해야 기준패턴을 생성할 수 있다.
도 12는 음성인식 기술을 전처리부와 인식부로 구분한 개념도이다.
전처리부에서는 사용자가 발성한 음성으로부터 인식 대상이 되는 구간을 찾아 잡음성분을 제거함으로써 인식부에서 특징을 추출할 수 있도록 한다.
인식부에서는 입력된 음성을 음성 데이터베이스와의 비교를 통해 가장 가능성있는 단어를 인식결과로 출력하고, 입력된 음성의 특징을 추출한 다음 음성인식 데이터베이스와의 유사도를 측정해 가장 유사한 문자 혹은 명령어로 변환하여 텍스트로 변환한다.
이러한 과정은 사람이 태어나 말을 배우는 인지 과정을 모방한 것으로 수많은 반복훈련을 통해 여러가지 단어나 문법을 머리속에 정형화하고, 새로 들은 음성을 이와 비교하여 알아내는 인지과정을 거치게 된다.
사용자가 발성한 음성으로부터 인식 대상이 되는 구간을 찾아 잡음성분을 제거하고 인식과정을 위한 특징을 추출한다. 여러 가지 간접신호 중 주변 잡음, 반향, 음악, 다른 화자의 말소리 등이 입력음성과 동시에 부가되기 때문에 정보의 손실과 전송오류가 발생할 수 있다. 이러한 환경에서 분산음성인식(DSR, Distributed Speech Recognition)은 추출된 음성의 특징만을 인식하기 때문에 음성인식에 소요되는 계산량을 크게 줄일 수 있고 전송오류 또한 회피할 수 있다. 도 13에 분산음성인식의 구조가 도시되어 있다.
또한, 정보손실과 전송오류를 줄이기 위해 스펙트럼 차감법에 의한 잡음제거를 수행한다. 도 14에 스펙트럼 차감법의 블록도가 도시되어 있고, 도 15에는 스펙트럼 차감법을 이용하여 입력 스펙트럼을 여과하여 출력 스펙트럼을 출력하는 과정이 도시되어 있다.
도 15를 참조하면, '잡음 제거 전 음성신호'를 FFT(고속푸리에변환)을 거쳐 여과기 특성 주파수로 잡음성분을 제거하고, IFFT(역고속푸리에변환)을 거쳐 '잡음 제거 후 음성신호'를 출력한다.
도 16은 음성입력과 인식 및 데이터 작성과정에 이르는 과정을 도시한 흐름도이다.
도 16을 참조하면, 잡음이 제거된 입력 음성정보는 디지털로 증폭처리된 후 음역대 및 음성주파수 관련 특징 추출단계를 거친다. 특징 추출단계를 거친 음성정보는 온라인 및/또는 오프라인 화자 적응을 통하여 음향모델을 구축하고, 단어 탐색 후 조합하여 문장단위 해석 및 판단을 거친 후 데이터를 작성한다.
도 17은 모션과 음성 추출 및 등록의 흐름도이다.
도 17에는 화상토론시스템 접속 후 사용자의 생체정보를 음성 및 모션 DB에 저장하는 과정에 대한 흐름도이다.
좌측의 모션 등록에서는 사용자가 차지하고 있는 면적 특징점을 추출하여 오차 범위를 계산한 후, 배경프레임 중 모션인지구역을 획득하고 데이터를 처리하여 저장한다.
우측의 음성 등록에서는 사용자의 음성 주파수를 추출하여 잡음처리한 후 사용자 음성 내 음역대를 획득하고 데이터를 처리하여 저장한다.
도 18은 화상서비스 제공시스템 내 음성 및 모션인식을 통한 발언권 제한, 획득 및 데이터처리에 관한 흐름도이다.
도 18을 참조하면, 화상서비스 제공 시스템 진행 도중 음성 및 모션 인식시 음성 및 모션 DB 내 저장되어 있는 데이터와 비교한 후 일치하였을 때 명령이 인식되어 발언권 제한 및 획득과정이 진행된다. 즉, 토론시 음성과 모션에 관한 데이터를 인식 및 취득하여 데이터 처리를 통해 음성 및 모션 DB에 저장함과 동시에, 토론자의 음성과 모션을 인식하여 기 저장된 음성 및 모션 DB의 데이터와 비교한다. 이때, 모션 인지 구역 내에서 인지되었을 경우, 음성/음역대 인지 구역 내에서 인지되었을 경우 데이터를 저장하여 음성 및 모션 DB로 전송하고, 그렇지 않을 경우에는 그대로 토론이 진행된다. 발언을 원하는 토론자의 명령을 인식하여 발언권 요청여부를 확인한다. 발언권이 획득되면 발언자로 화면 포커스가 자동으로 전환된다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
10 - 웹서버 20 - 스트리밍 서버
30 - DB서버
30 - DB서버
Claims (3)
- 모션 인식 영역 내에서 이전 프레임 영상 내 픽셀을 모두 배경영역으로 설정하고, 현재 프레임의 영상과 비교하여 동일한 위치에 있는 픽셀의 화소색상 차이가 임계값 이상이 될 경우 토론자가 움직인 것으로 판단하고 움직임 영역을 추출하는 움직임 영역 추출부를 포함하는 모션 인식 모듈;
토론자가 발성한 음성으로부터 인식 대상이 되는 구간을 찾아 잡음성분을 제거하는 전처리부, 상기 전처리부로부터 입력된 음성을 음성모델 데이터베이스와 비교하여 가장 유사도 높은 단어를 인식결과로 출력하는 인식부를 포함하는 음성 인식 모듈;
상기 모션 인식 모듈로부터 상기 모션 인식 영역 내 임계영역 이상 및 임계시간 이상의 연속 모션이 인식된 경우 모션에 대한 동작분석을 통해 토론자의 발언권 요청을 제어하고, 상기 음성 인식 모듈을 통해 인식된 음성 결과와 기 설정되어 저장된 발언권 요청 문장과의 일치여부를 판단하여 발언권 요청을 제어하는 발언권 요청 제어 모듈; 및
상기 모션 인식 모듈과 상기 음성 인식 모듈을 통해 토론자의 집중도, 토론 주도권, 발언횟수를 포함한 토론자의 참여정보를 수치화된 데이터와 그래프로 실시간으로 작성하여 토론 종료 직후 레포트 형태로 제공하며, 음성 최고 및 최저치, 모션변화를 포함하는 특이점을 분석하여 토론영상의 부분 재생이 가능하도록 하고, 토론자의 발언시간 중 음성 대역폭 상승 시점의 영상을 하이라이트 영상으로 제공하여 토론 성향과 토론 참여도를 분석하여 제공하는 토론 역량강화 모듈
을 포함하는 것을 특징으로 하는 음성 및 모션 인식을 이용한 화상서비스 제공 시스템. - 제1항에 있어서, 상기 모션 인식 모듈은
상기 움직임 영역 추출부에서 추출된 움직임 영역에서 모폴로지 연산을 통해 노이즈를 제거하고, 피부색과 상관관계가 높고 G와 B보다 분포범위가 작은 R과, 컬러공간에서 색상의 순도를 나타내는 H요소 간의 비(H/R)로 피부색을 검출하여 얼굴 후보 영역을 추출하는 얼굴 후보 영역 추출부,
상기 얼굴 후보 영역 추출부에 의해 추출된 얼굴 후보 영역 중 상, 하 픽셀의 색상 차이가 상대적으로 작은 팔과 다리를 제외하고 상, 하 픽셀의 색상 차이가 상대적으로 큰 얼굴 영역만 추출하는 얼굴 분석 및 추출부,
상기 얼굴영역의 하부에 존재하는 픽셀을 토론자의 상체범위로 인식하되, 샘플링된 사람 체형에서 상체가 차지하는 비율 또는 얼굴영역을 기준으로 한 어깨위치를 포함하는 특징점으로 토론자의 예상 상체 범위를 추출하는 토론자 상체 영역 추출부, 및
이전 영상과 현재 영상의 연속된 프레임간의 차 영상으로 움직임 탐색시 변화가 임계값 미만이 되는 영역인 동시에 상기 토론자 상체 영역의 나머지 영역을 배경영역으로 설정하고, 상기 배경영역에서만 움직임 탐색을 수행하는 모션 인식 영역 추출부
를 더 포함하는 것을 특징으로 하는 음성 및 모션 인식을 이용한 화상서비스 제공 시스템. - 제1항에 있어서,
상기 전처리부는 잡음 제거 전의 음성신호를 고속푸리에변환한 후 여과기 특성 주파수를 이용하여 잡음성분을 제거하고, 역고속푸리에변환을 거치는 것을 특징으로 하는 음성 및 모션 인식을 이용한 화상서비스 제공 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130068596A KR101349769B1 (ko) | 2013-06-14 | 2013-06-14 | 음성 및 모션 인식을 이용한 화상서비스 제공 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130068596A KR101349769B1 (ko) | 2013-06-14 | 2013-06-14 | 음성 및 모션 인식을 이용한 화상서비스 제공 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101349769B1 true KR101349769B1 (ko) | 2014-01-09 |
Family
ID=50145145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130068596A KR101349769B1 (ko) | 2013-06-14 | 2013-06-14 | 음성 및 모션 인식을 이용한 화상서비스 제공 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101349769B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101840594B1 (ko) * | 2017-03-15 | 2018-03-20 | 한국전자통신연구원 | 영상 회의 참여도 평가 방법 |
KR20190093040A (ko) * | 2018-01-31 | 2019-08-08 | 문완묵 | 시지각과 청지각을 통한 퍼스널 컬러 분석시스템 및 이를 이용한 패션 페르소나 컬러 메칭방법 |
KR20200018832A (ko) * | 2018-08-13 | 2020-02-21 | 신한대학교 산학협력단 | 학습유도장치 |
KR20220090326A (ko) | 2020-12-22 | 2022-06-29 | 동의대학교 산학협력단 | 주점을 주제로 하는 화상 소셜 다이닝 시스템 제공 방법 |
KR102477531B1 (ko) * | 2021-12-02 | 2022-12-14 | (주)스코넥엔터테인먼트 | 음성인식 기능이 구비된 가상 환경 제어 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120076632A (ko) * | 2010-12-08 | 2012-07-09 | 온소통 주식회사 | 온라인 토론 능력 인증 방법과 상기 방법을 수행할 수 있는 시스템 |
-
2013
- 2013-06-14 KR KR1020130068596A patent/KR101349769B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120076632A (ko) * | 2010-12-08 | 2012-07-09 | 온소통 주식회사 | 온라인 토론 능력 인증 방법과 상기 방법을 수행할 수 있는 시스템 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101840594B1 (ko) * | 2017-03-15 | 2018-03-20 | 한국전자통신연구원 | 영상 회의 참여도 평가 방법 |
KR20190093040A (ko) * | 2018-01-31 | 2019-08-08 | 문완묵 | 시지각과 청지각을 통한 퍼스널 컬러 분석시스템 및 이를 이용한 패션 페르소나 컬러 메칭방법 |
KR102037166B1 (ko) | 2018-01-31 | 2019-10-28 | 문완묵 | 시지각과 청지각을 통한 퍼스널 컬러 분석시스템 및 이를 이용한 패션 페르소나 컬러 메칭방법 |
KR20200018832A (ko) * | 2018-08-13 | 2020-02-21 | 신한대학교 산학협력단 | 학습유도장치 |
KR102095323B1 (ko) | 2018-08-13 | 2020-03-31 | 신한대학교 산학협력단 | 학습유도장치 |
KR20220090326A (ko) | 2020-12-22 | 2022-06-29 | 동의대학교 산학협력단 | 주점을 주제로 하는 화상 소셜 다이닝 시스템 제공 방법 |
KR102477531B1 (ko) * | 2021-12-02 | 2022-12-14 | (주)스코넥엔터테인먼트 | 음성인식 기능이 구비된 가상 환경 제어 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | LRW-1000: A naturally-distributed large-scale benchmark for lip reading in the wild | |
CN112088402B (zh) | 用于说话者识别的联合神经网络 | |
KR101349769B1 (ko) | 음성 및 모션 인식을 이용한 화상서비스 제공 시스템 | |
US9595259B2 (en) | Sound source-separating device and sound source-separating method | |
JP4557919B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US20100278377A1 (en) | Methods for electronically analysing a dialogue and corresponding systems | |
CN111833876A (zh) | 会议发言控制方法、系统、电子设备及存储介质 | |
Cristani et al. | Look at who’s talking: Voice activity detection by automated gesture analysis | |
CN110335603A (zh) | 应用于电视场景的多模态交互方法 | |
JP7279494B2 (ja) | 会議支援装置、および会議支援システム | |
JP2007322523A (ja) | 音声翻訳装置及びその方法 | |
Saitoh et al. | SSSD: Speech scene database by smart device for visual speech recognition | |
US20080004879A1 (en) | Method for assessing learner's pronunciation through voice and image | |
US20230095526A1 (en) | Target speaker mode | |
Ronzhin et al. | Speaker turn detection based on multimodal situation analysis | |
CN117854507A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
KR20100041061A (ko) | 화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말 | |
KR20140093459A (ko) | 자동 통역 방법 | |
US11600279B2 (en) | Transcription of communications | |
CN112567455A (zh) | 使用深度信息净化声音的方法和系统以及计算机可读介质 | |
JP2023117068A (ja) | 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム | |
CN114466178A (zh) | 语音与图像同步性的衡量方法及装置 | |
Yoshinaga et al. | Audio-visual speech recognition using new lip features extracted from side-face images | |
JP2021072497A (ja) | 分析装置及びプログラム | |
Kim et al. | Design and implementation of a lip reading system in smart phone environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20161228 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20171221 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20181220 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20191224 Year of fee payment: 7 |