KR102640762B1 - 화자 기반 영상 오토 스위칭 방법 - Google Patents

화자 기반 영상 오토 스위칭 방법 Download PDF

Info

Publication number
KR102640762B1
KR102640762B1 KR1020230062289A KR20230062289A KR102640762B1 KR 102640762 B1 KR102640762 B1 KR 102640762B1 KR 1020230062289 A KR1020230062289 A KR 1020230062289A KR 20230062289 A KR20230062289 A KR 20230062289A KR 102640762 B1 KR102640762 B1 KR 102640762B1
Authority
KR
South Korea
Prior art keywords
speaker
analyzing
movements
facial expression
analysis data
Prior art date
Application number
KR1020230062289A
Other languages
English (en)
Inventor
이은규
Original Assignee
주식회사 상화
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 상화 filed Critical 주식회사 상화
Priority to KR1020230062289A priority Critical patent/KR102640762B1/ko
Application granted granted Critical
Publication of KR102640762B1 publication Critical patent/KR102640762B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/268Signal distribution or switching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4227Providing Remote input by a user located remotely from the client device, e.g. at work
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 카메라를 통해 화자의 표정 및 움직임을 동영상으로 촬영하는 단계(S10); 상기 촬영된 동영상을 영상 분석 데이터 및 음성 분석 데이터로 분리하는 단계(S20); 상기 분리된 영상 분석 데이터를 분석하여 화자의 표정 상태의 특징을 식별하는 단계(S30); 상기 분리된 영상 분석 데이터를 분석하여 화자의 움직임의 특징을 식별하는 단계(S40); 상기 분리된 음성 분석 데이터에서 화자의 발성 시간을 분석하여 화자가 대화 중인지의 여부를 식별하는 단계(S50); 상기 식별된 화자의 표정 상태, 화자의 움직임 및 발성에 관한 데이터 베이스에 저장하는 단계(S60); 및 상기 데이터 베이스에 저장된 식별된 표정, 동작 및 음성을 이용하여 웹서버를 통해 화면을 전환하는 단계(S70)를 포함하여 구성되는 것을 특징으로 한다.

Description

화자 기반 영상 오토 스위칭 방법{Method for auto-switching image based speaker}
본 발명은 화자 기반 영상 오토 스위칭 방법에 관한 것으로, 모션캡처 방식으로 화자의 상기 식별된 화자의 표정 상태, 화자의 움직임 및 발성 상태를 분석하여 대화 중에 있는 화자의 영상으로 전환하는 기술에 관한 것이다.
최근 방송 콘텐츠의 다변화에 따라 방송 제작을 위해 다양한 기법들이 개발되고 있다. 이를 위해 많은 수의 카메라를 사용하여 촬영한 뒤 편집 과정에서 여러가지 효과를 추가하거나 영상 자체를 편집한다. 일례로, 다수의 화자가 등장하는 토론회 등에서는 개인별 카메라 또는 각도별로 다수의 카메라를 사용하여 촬영한다.
이와 같이, 다수의 카메라를 사용하여 촬영한 것을 하나의 영상으로 제작하기 위해서는 편집자의 수고가 초래된다. 특히, 생방송 진행하는 경우, 실시간으로 화자에 따라 카메라의 선택하여 송출하게 되는데 이는 매우 전문적인 작업으로 작업자에 경험이나 능력에 좌우된다.
따라서 이러한 영상 편집의 자동화를 위해서는 여러 대의 카메라를 이용하여 영상을 촬영하는 과정에서 중심 화자의 화면을 자동으로 전환하는 기술의 도입이 필요하다.
(특허문헌 0001) 한국공개특허공보 제10-2007-0056885호
전술한 문제점을 해결하기 위하여, 본 발명은 여러 대의 카메라를 이용하여 여러 명의 화자의 영상을 촬영하는 과정에서 화자의 특징적인 얼굴 표정, 몸 동작의 변화에 의한 차이를 분석하여 화자의 영상을 자동으로 전환하는 것을 목적으로 한다.
또한, 본 발명은 화자의 발성 주기의 차이를 분석하여 화자의 발성 여부를 파악하여 영상을 자동으로 전환하는 것을 목적으로 한다.
또한, 본 발명은 모셥캡처방식을 이용하여 촬영의 대상이 되는 화자의 얼굴 표정, 몸 동작의 여부를 파악하여 딥러닝 방식으로 분석하여 화자의 화면을 자동으로 전환하는 것을 목적으로 한다.
전술한 목적을 달성하기 위하여, 본 발명은 카메라를 통해 화자의 표정 및 움직임을 동영상으로 촬영하는 단계(S10); 상기 촬영된 동영상을 영상 분석 데이터 및 음성 분석 데이터로 분리하는 단계(S20); 상기 분리된 영상 분석 데이터를 분석하여 화자의 표정 상태의 특징을 식별하는 단계(S30); 상기 분리된 영상 분석 데이터를 분석하여 화자의 움직임의 특징을 식별하는 단계(S40); 상기 분리된 음성 분석 데이터에서 화자의 발성 시간을 분석하여 화자가 대화 중인지의 여부를 식별하는 단계(S50); 상기 식별된 화자의 표정 상태, 화자의 움직임 및 발성에 관한 데이터 베이스에 저장하는 단계(S60); 및 상기 데이터 베이스에 저장된 식별된 표정, 동작 및 음성을 이용하여 웹서버를 통해 화면을 자동으로 전환하는 단계(S70)를 포함하여 구성되는 것을 특징으로 한다.
또한, 본 발명은 화자의 표정 및/또는 입술 모양을 모션캡처 방식에 의해 랜드마크의 추출 및 및 분석대상이 되는 영역을 잘라내는 단계; 미리 저장된 화자의 표정에 따른 감정을 나타내는 데이터와 상기 추출된 얼굴 표정 및/또는 입술 모양을 비교하여 현재 화자의 감정상태를 판단하는 단계를 포함하여 구성되는 화자의 표정 및/또는 입술 모양을 분석하여 상기 화자의 감정상태를 판단하는 단계(S80)를 더 포함하여 구성되는 것을 특징으로 한다.
또한, 본 발명의 상기 분리된 영상 분석 데이터를 분석하여 화자의 표정상태의 특징을 식별하는 단계(S30)는 모션캡처방식에 의해 화자를 표정을 포착하는 단계(S31); 상기 포착된 화자의 표정 중에서 분석대상영역을 포함하는 랜드마크를 추출하는 단계(S32); 상기 랜드마크 내에서 화자의 표정을 분석하기 위한 분석대상영역을 잘라내는 단계(S33); 및 상기 분석대상영역과 미리 저장된 이전의 영상 프레임과 비교하여 화자의 표정의 변화의 정도를 판단하여 화자의 대화 여부를 판단하는 단계(S34)를 포함하여 구성되는 것을 특징으로 한다.
또한, 본 발명의 상기 분리된 영상 분석 데이터를 분석하여 화자의 움직임의 특징을 식별하는 단계(S40)는 모션캡처 방식에 의해 화자의 손, 어깨 또는 다리의 움직임 중 어느 하나 이상을 포착하는 단계(S41); 상기 포착된 화자의 움직임 중에서 분석대상영역을 포함하는 랜드마크를 추출하는 단계(S42); 상기 랜드마크 내에서 화자의 움직임을 분석하기 위한 분석대상영역을 잘라내는 단계(S43); 및 상기 분석대상영역과 미리 저장된 이전의 영상 프레임과 비교하여 변화의 정도를 판단하여 화자의 움직임의 여부를 판단하는 단계(S44)를 포함하여 구성되는 것을 특징으로 한다.
또한, 본 발명의 상기 분리된 음성 분석 데이터에서 화자의 발성 시간을 분석하여 화자가 대화 중인지의 여부를 식별하는 단계(S50)는 상기 분리된 음성 분석 데이터로부터 화자의 단주기의 발성 및 장주기의 발성을 각각 추출하는 단계(S51); 상기 분리된 단주기의 발성 및 장주기의 발성을 이동 표준편차 분석방법에 의하여 분석하여 화자의 대화 여부를 판단하는 단계(S52)를 포함하여 구성되는 것을 특징으로 한다.
또한, 본 발명의 상기 데이터 베이스에 저장된 식별된 표정, 동작 및 음성을 이용하여 웹서버를 통해 화면을 전환하는 단계(S70)는 딥러닝 방식에 의해 화자의 상태를 분석하고 학습하여 제어하는 것을 특징으로 한다.
전술한 구성에 의한 본 발명의 실시로 발생하는 효과는 다음과 같다.
먼저, 본 발명의 실시로 화자의 특징적인 얼굴 표정, 몸 동작의 변화에 의한 차이를 효과적으로 분석하여 화자의 영상을 자동으로 전환할 수 있는 효과가 있다.
또한, 본 발명의 화자의 발성 주기의 차이를 분석하여 화자의 발성 여부를 파악함으로써 화자의 영상을 자동으로 전환할 수 있는 효과가 있다.
또한, 본 발명의 실시로 모셥캡처방식을 이용하여 촬영의 대상이 되는 화자의 얼굴 표정, 몸 동작의 여부를 파악 및 분석하여 화자의 화면을 자동으로 전환하는 것을 목적으로 한다.
도 1은 본 발명의 바람직한 일 실시 예의 순서도,
도 2는 본 발명의 바람직한 다른 일 실시 예의 순서도,
도 3a는 본 발명의 바람직한 일 실시 예에 의한 화자의 표정 상태를 분석하여 화자의 대화여부를 판단하는 순서도,
도 3b는 도 3a의 구체적인 실시 예를 나타내는 참고도,
도 4a는 본 발명의 바람직한 일 실시 예에 의한 화자의 움직임 상태를 판단하는 순서도,
도 4b는 도 4a의 구체적인 실시 예를 나타내는 참고도,
도 5는 본 발명의 바람직한 일 실시 예에 의한 단주기 발성 및 장주기 발성을 추출 및 분석하여 화자의 대화여부를 판단하는 순서도,
도 6은 본 발명의 바람직한 일 실시 예에 사용되는 단주기 발성 및 장주기의 발성을 분석을 예시하는 참고도이다.
이하에서는 첨부된 도면들의 바람직한 실시 예들을 통해 본 발명을 상세하게 설명한다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
또한, 본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 판례 또는 새로운 기술의 출현 등에 의해 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 고려하여 임의로 선정한 용어도 있으며, 이 경우 해당하는 발명의 상세한 설명에서 상세히 기능 및 구조의 설명을 통하여 의미를 설명할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
특히 본 발명에서 사용하는 화자란 의미는 이야기를 하는 주체로서, 단수인 1인이 될 수도 2인 이상이 될 수도 있다. 그리고 본 발명에서의 랜드마크지(landmark)는 화자의 얼굴 표정, 음성, 몸동작 중에서 화자의 현재의 모습 내지는 감정상태를 나타내는 특징적인 부분을 가르키는 것으로 정의한다.
도 1을 참조하면, 본 발명을 실시함에는 카메라를 통해 화자의 표정 및 움직임을 동영상으로 촬영하는 단계(S10); 상기 촬영된 동영상을 영상 분석 데이터 및 음성 분석 데이터로 분리하는 단계(S20); 상기 분리된 영상 분석 데이터를 분석하여 화자의 표정 상태의 특징을 식별하는 단계(S30); 상기 분리된 영상 분석 데이터를 분석하여 화자의 움직임의 특징을 식별하는 단계(S40); 상기 분리된 음성 분석 데이터에서 화자의 발성 시간을 분석하여 화자가 대화 중인지의 여부를 식별하는 단계(S50); 상기 식별된 화자의 표정 상태, 화자의 움직임 및 발성에 관한 데이터 베이스에 저장하는 단계(S60); 및 상기 데이터 베이스에 저장된 식별된 표정, 동작 및 음성을 이용하여 웹서버를 통해 화면을 자동으로 전환하는 단계(S70)로 구성하여 실시할 수 있다. 이러한 구성을 통하여 여러 대의 카메라를 이용하여 촬영되는 화면 중에서 여러 명의 화자 중에서 대화를 하고 있는 중심 화자의 영상으로 화면을 자동으로 전환하도록 하는 것이 가능하다. 본 발명에서의 화자의 표정상태 또는 동작상태에 따라 화면을 자동으로 전환하는 것은 전용 애플리케이션을 통해 웹서버에 의할 수도 있고 실시조건에 따라서는 메인 프로세서를 구비한 운용 기기를 이용하여 실시할 수 있다.
또한, 본 발명을 실시함에는 상기 데이터 베이스에 저장된 식별된 표정, 동작 및 음성을 이용하여 웹서버를 통해 화면을 전환하는 단계(S70)는 딥러닝 방식에 의해 화자의 상태를 분석하고 학습하여 제어하도록 구성하여 실시할 수 있다. 일례로, 메인 프로세서는 딥러닝을 통하여 화자의 표정이나 화자의 움직임의 정도에 따라 복수의 화자 중에서 중심 화자를 선별할 수 있다. 즉, 화자의 표정이나 입술의 변화 정도 및 화자의 신체의 움직임의 변화 정도에 따라 복수의 화자 중에서 중심 화자를 선별할 수 있다. 여기서, 변화 정도는 데이터베이스화하여 누적함으로써 화면 전환을 위한 기준 변화의 크기를 학습할 수 있다. 또한, 사용중에 기준 변화의 크기를 업데이트할 수 있다.
첨부된 도 2와 같이 본 발명을 실시함에는, 화자의 표정 및/또는 입술 모양을 모션캡처 방식에 의해 랜드마크의 추출 및 및 분석대상이 되는 영역을 잘라내는 단계와, 미리 저장된 화자의 표정에 따른 감정을 나타내는 데이터와 상기 추출된 얼굴 표정 및/또는 입술 모양을 비교하여 현재 화자의 감정상태를 판단하는 단계를 포함하여 구성되는 화자의 표정 및/또는 입술 모양을 분석하여 상기 화자의 감정상태를 판단하는 단계(S80)를 더 포함하여 실시할 수 있다. 상기 구성에 화자의 감정상태를 판단하도록 구성한 것이다.
보다 상세하게는, 상기 분석과정에서 미리 균등분배되어 설정된 희노애락 등을 포함하는 7가지 값을 기준으로 상기 추출된 화자의 얼굴 표정 및/또는 입술 모양과 비교 분석하되, 바람직하게는 딥러닝 모델방식을 이용하여 데이터가 업데이트 되도록 실시하는 것이 바람직하다. 일례로, 메인 프로세서는 딥러닝을 통하여 화자의 감정 상태를 인식할 수 있다. 이때, 화자의 얼굴 표정에 따라 감정을 나타내는 7가지의 기분 벡터를 설정하고, 현재 프레임의 감정 벡터와 기준 벡터의 유사도가 임계값 이하일 때 감정 변화로 판단할 수 있다. 즉, 감정 상태를 판단하는 단계는 현재 프레임의 감정 벡터와 기준 벡터와의 유사도가 임계값 이하인 경우, 감정 변화로 변단하고 현재의 감정 상태를 판단할 수 있다. 여기서, 감정 기준 벡터는 얼굴 표정에 따라 눈, 코, 입 및 미간 등의 위치나 모양으로 설정될 수 있다. 아울러, 메인 프로세서는 딥러닝을 통하여 화자의 감정의 변화 정도에 따라 복수의 화자 중에서 중심 화자를 선별할 수 있다. 즉, 화자의 감정 변화 정도에 따라 복수의 화자 중에서 중심 화자를 선별할 수 있다. 여기서, 변화 정도는 데이터베이스화하여 누적함으로써 화면 전환을 위한 기준 변화의 크기를 학습할 수 있다. 또한, 사용중에 기준 변화의 크기를 업데이트할 수 있다.
본 발명의 실시에 사용되는 모션캡처 방식은 영상에서 화자의 특징점을 추출하고 이러한 특징점의 움직임에 따라 화자의 움직임을 포착하는 등의 방법으로 화자의 표정 또는 화자의 팔 등의 움직임을 추출하는 것이 바람직하다. 도 3b 및 도 4b의 실시 예에서는 미디어파이프의 페이스메쉬 및 미디어파이프 포즈를 이용하여 화자의 표정 및 움직임 상태를 포착(인식)하도록 실시할 수 있다.
도 3a 및 도 3b을 참조하면, 본 발명을 실시함에는 상기 분리된 영상 분석 데이터를 분석하여 화자의 표정을 분석하여 표정상태의 특징을 식별하는 단계(S30)는 모션캡처방식에 의해 화자의 표정을 포착하는 단계(S31); 상기 포착된 화자의 표정 중에서 분석대상영역을 포함하는 랜드마크를 추출하는 단계(S32); 상기 랜드마크 내에서 화자의 표정을 분석하기 위한 분석대상영역을 잘라내는 단계(S33); 상기 분석대상영역과 미리 저장된 이전의 영상 프레임과 비교하여 화자의 표정의 변화의 정도를 판단하여 화자의 대화 여부의 상태를 판단하는 단계(S34)로 구성하여 실시할 수 있다.
보다 상세하게는, 모션캡처방식에 이용하여 현재의 표정상태를 포착한다. 그리고 화자의 표정 중에서 분석대상영역이 되는 눈, 코 및 입을 포함하는 얼굴에 대한 랜드마크를 도 3b에 도시된 바와 같이, 추출한다. 그리고 상기 랜드마크 내에서 분석대상영역이 입술에 해당하는 경우에는 도 3b와 같이 입술 부분을 추출하여 입술 사이의 거리 비율 즉, 윗입술과 아랫입술의 사이의 변화를 분석하여 현재 화자가 대화를 하고 있는 지의 여부를 판단한다. 실시조건에 따라서는 눈 또는 코를 분석대상영역으로 지정하여 입술의 모양과 함께 비교하여 판단할 수도 있다. 그리고 상기 분석대상영역과 미리 저장된 이전의 영상 프레임과 비교하여 화자의 표정의 변화의 정도를 판단하여 화자의 대화 여부의 상태를 판단하도록 실시하는 것이 바람직하다. 이때, 입술의 모양으로 대화 여부를 판단하는 경우에는 입술을 다문 경우와 입술을 벌린 상태에서의 윗입술과 아랫입술의 이격거리를 데이터화하여 화자의 대화 여부를 판단하도록 구성하여 실시하는 것이 바람직하다. 이와 같이, 얼굴 표정의 변화에 의해 화면을 자동으로 변환하는 기준이 선별될 수 있다.
도 4a 및 도 4b를 참조하면, 상기 분리된 영상 분석 데이터를 분석하여 화자의 동작을 분석하여 화자 움직임의 특징을 식별하는 단계(S40)는 모션캡처 방식에 의해 화자의 손, 어깨 또는 다리의 움직임 중 어느 하나 이상을 포착하는 단계(S41); 상기 포착된 화자의 움직임 중에서 분석대상영역을 포함하는 랜드마크를 추출하는 단계(S42); 상기 랜드마크 내에서 화자의 움직임을 분석하기 위한 분석대상영역을 잘라내는 단계(S43); 및 상기 분석대상영역과 미리 저장된 이전의 영상 프레임과 비교하여 변화의 정도를 판단하여 화자의 움직임의 여부를 판단하는 단계(S44)로 구성하여 실시할 수 있다.
보다 상세하게는, 먼저, 상기 분리된 영상 분석 데이터에서 모션캡처 방식에 의해 화자의 손, 어깨 또는 다리의 움직임 중 어느 하나 이상의 움직임을 포착한다. 그리고 상기 포착된 화자의 움직임 중에서 분석대상영역을 포함하는 랜드마크를 추출한다. 그리고 실시조건에 따라서는 도 4b의 실시 예와 같이 양손의 위치를 좌표화하여 현재 손의 위치를 파악하도록 실시할 수도 있다. 그리고 랜드마크 내에서 화자의 움직임을 분석하기 위한 분석대상영역을 잘라낸다. 그리고 상기 분석대상영역과 미리 저장된 이전의 영상 프레임과 비교하여 화자의 손, 어깨 등의 변화의 정도를 판단하여 화자의 움직임의 여부를 판단하는 단계(S44)로 구성하여 실시할 수 있다. 그리고 도 4b의 실시 예와 같이, 랜드마크를 화자의 손 및 어깨 부분의 움직임을 기준으로 하여 실시하였다. 실시조건에 따라서는 손, 어깨 또는 다리의 움직임 중 하나 이상을 분석대상영역으로 지정하여 실시하는 것이 바람직하다. 즉, 화자가 앉아 있는 경우에는 분석대상영역을 손과 어깨로 지정하고, 화자가 서 있는 경우에는 손, 어깨 및 다리를 분석대상영역으로 지정하여 실시할 수 있다. 이와 같이, 신체부위의 랜드마크를 통하여, 특히, 팔의 움직임을 통하여 리액션 여부를 판단할 수 있다. 여기서, 리액션의 크기에 따라 중심 화자 또는 중심 화자에 대한 주요 리액션으로 화면을 자동으로 변환하는 기준이 선별될 수 있다.
첨부된 도 5 및 도 6을 참조하면, 본 발명의 상기 분리된 음성 분석 데이터를 분석하여 화자의 발성 시간을 분석하여 대화 중인지의 여부를 식별하는 단계(S50)는 상기 분리된 음성 분석 데이터부터 화자의 단주기의 발성 및 장주기의 발성을 각각 추출하는 단계(S51)와 상기 분리된 단주기의 발성 및 장주기의 발성을 이동 표준편차 분석방법에 의하여 분석하여 화자의 대화 여부를 판단하는 단계(S52)로 구성하여 실시할 수 있다.
보다 상세하게는, 도 5 및 6의 실시 예와 같이 먼저, 먼저 상기 분리된 음성 분석 데이터에서 화자의 발성 시간을 분석하여 대화 중인지의 여부를 식별하는 단계(S50)는 화자의 발성 시간에 따라 단주기의 발성과 장주기의 발성으로 구분한다. 여기서, 단주기의 발성과 장주기의 발성은 마이크 신호로부터 수신된 신호를 서로 상이한 주기로 구분한 것으로 각각의 표준편차를 추출할 수 있다. 이때, 화자가 대화를 시작하는 경우에는 도 6과 같이 단주기의 발성에 대한 표준편차가 급격히 상승하므로 이를 이용하여 대화 시작 여부를 판단하도록 실시할 수 있다. 그리고 화자가 대화를 계속하고 있는 경우에는 도 6에 도시된 바와 같이, 일정시간 및 일정 수준의 표준편차가 다소 긴 시간 동안 지속적으로 유지되는 것을 이용하여 장주기의 발성의 표준편차에 의해 대화중 상태를 판단하는 것이 바람직하다. 이와 같이, 메인 프로세서는 마이크의 신호를 분석하여 대화 상태를 판단할 수 있다.
이와 같이, 본 발명은 다수의 카메라를 통한 촬영이 이루어질 때 화자의 목소리, 표정, 제스처를 데이터베이스화하여 분석 프로세싱을(인공지능) 거쳐 현재 말하고 있는 화자의 카메라를 메인으로 활성화시키는 방법으로서 토론형 라이브 촬영 시 자연스럽게 메인 카메라를 자동으로 전환할 수 있다. 이때, 본 발명은 얼굴의 표정, 신체의 움직임, 감정 및 마이크 신호에 따라 대화 상태를 판단하여 중심 화자를 선별하고 해당 화자에 대한 영상을 메인 화면으로 자동 전환할 수 있다. 여기서, 자동 전환을 위한 기준은 얼굴의 표정, 신체의 움직임, 감정 및 마이크 신호에 대한 변화의 크기 및 미리 설정된 가중치에 따라 설정될 수 있다. 일례로, 마이크 신호의 변화, 얼굴 표정, 신체의 움직임 및 감정의 순으로 가중치가 결정될 수 있다.

Claims (6)

  1. 카메라를 통해 화자의 표정 및 움직임을 동영상으로 촬영하는 단계(S10);
    상기 촬영된 동영상을 영상 분석 데이터 및 음성 분석 데이터로 분리하는 단계(S20);
    상기 분리된 영상 분석 데이터를 분석하여 화자의 표정 상태의 특징을 식별하는 단계(S30);
    상기 분리된 영상 분석 데이터를 분석하여 화자의 움직임의 특징을 식별하는 단계(S40);
    상기 분리된 음성 분석 데이터에서 화자의 발성 시간을 분석하여 화자가 대화 중인지의 여부를 식별하는 단계(S50);
    상기 식별된 화자의 표정 상태, 화자의 움직임 및 발성에 관한 데이터 베이스에 저장하는 단계(S60);
    상기 데이터 베이스에 저장된 식별된 표정, 동작 및 음성을 이용하여 웹서버를 통해 화면을 자동으로 전환하는 단계(S70); 및
    화자의 표정 또는 입술 모양을 모션캡처 방식에 의해 랜드마크의 추출 및 분석대상이 되는 영역을 잘라내는 단계; 미리 저장된 화자의 표정에 따른 감정을 나타내는 데이터와 상기 추출된 얼굴 표정 또는 입술 모양을 비교하여 현재 화자의 감정상태를 판단하는 단계; 를 포함하여 구성되는 화자의 표정 또는 입술 모양을 분석하여 상기 화자의 감정상태를 판단하는 단계(S80);
    를 포함하여 구성되는 것을 특징으로 하고,
    상기 모션캡처 방식은 인공지능 프레임워크인 페이스메쉬 및 미디어파이프 포즈를 이용하고,
    상기 화자의 표정 상태의 특징을 식별하는 단계는 눈 또는 코를 분석대상영역으로 지정하여 입술의 모양과 함께 비교하여 판단하며, 윗입술과 아랫입술의 이격거리를 데이터화하여 입술의 모양으로 화자의 대화 여부를 판단하고,
    상기 화자의 움직임의 특징을 식별하는 단계는 양손의 위치를 좌표화하여 현재 손의 위치를 파악하되, 팔의 움직임을 통하여 리액션 여부를 판단하고 리액션의 크기에 따라 화면 자동 변환의 기준을 선별하며,
    상기 화자가 대화 중인지의 여부를 식별하는 단계는 화자의 발성 시간에 따라 마이크 신호로부터 수신된 신호를 단주기의 발성과 장주기의 발성으로 구분하고, 상기 단주기의 발성 및 상기 장주기의 발성 각각의 표준편차를 추출하며, 상기 각각의 표준편차의 변화에 따라 화자의 대화 중 상태를 판단하고,
    상기 화면을 자동으로 전환하는 단계는 얼굴의 표정, 신체의 움직임, 감정 및 마이크 신호에 대한 변화의 크기 중에서 미리 설정된 가중치 순서를 기준으로 자동 전환하는 화자 기반 영상 오토 스위칭 방법.
  2. 삭제
  3. 제1항에서,
    상기 분리된 영상 분석 데이터를 분석하여 화자의 표정상태의 특징을 식별하는 단계(S30)는
    모션캡처방식에 의해 화자를 표정을 포착하는 단계(S31);
    상기 포착된 화자의 표정 중에서 분석대상영역을 포함하는 랜드마크를 추출하는 단계(S32);
    상기 랜드마크 내에서 화자의 표정을 분석하기 위한 분석대상영역을 잘라내는 단계(S33);
    상기 분석대상영역과 미리 저장된 이전의 영상 프레임과 비교하여 화자의 표정의 변화의 정도를 판단하여 화자의 대화여부를 판단하는 단계(S34);
    를 포함하여 구성되는 것을 특징으로 하는 화자 기반 영상 오토 스위칭 방법.
  4. 제1항에서,
    상기 분리된 영상 분석 데이터를 분석하여 화자의 움직임의 특징을 식별하는 단계(S40)는
    모션캡처 방식에 의해 화자의 손, 어깨 또는 다리의 움직임 중 어느 하나 이상을 포착하는 단계(S41);
    상기 포착된 화자의 움직임 중에서 분석대상영역을 포함하는 랜드마크를 추출하는 단계(S42);
    상기 랜드마크 내에서 화자의 움직임을 분석하기 위한 분석대상영역을 잘라내는 단계(S43); 및
    상기 분석대상영역과 미리 저장된 이전의 영상 프레임과 비교하여 변화의 정도를 판단하여 화자의 움직임의 여부를 판단하는 단계(S44);
    를 포함하여 구성되는 것을 특징으로 하는 화자 기반 영상 오토 스위칭 방법.
  5. 제1항에서,
    상기 분리된 음성 분석 데이터에서 화자의 발성 시간을 분석하여 화자가 대화 중인지의 여부를 식별하는 단계(S50)는
    상기 분리된 음성 분석 데이터로부터 화자의 단주기의 발성 및 장주기의 발성을 각각 추출하는 단계(S51);
    상기 분리된 단주기의 발성 및 장주기의 발성을 이동 표준편차 분석방법에 의하여 분석하여 화자의 대화여부를 판단하는 단계(S52);
    를 포함하여 구성되는 것을 특징으로 하는 화자 기반 영상 오토 스위칭 방법.
  6. 제1항에서,
    상기 데이터 베이스에 저장된 식별된 표정, 동작 및 음성을 이용하여 웹서버를 통해 화면을 전환하는 단계(S70)는 딥러닝 방식에 의해 화자의 상태를 분석하고 학습하여 제어하는 것을 특징으로 하는 화자 기반 영상 오토 스위칭 방법.
KR1020230062289A 2023-05-15 2023-05-15 화자 기반 영상 오토 스위칭 방법 KR102640762B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230062289A KR102640762B1 (ko) 2023-05-15 2023-05-15 화자 기반 영상 오토 스위칭 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230062289A KR102640762B1 (ko) 2023-05-15 2023-05-15 화자 기반 영상 오토 스위칭 방법

Publications (1)

Publication Number Publication Date
KR102640762B1 true KR102640762B1 (ko) 2024-02-28

Family

ID=90052861

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230062289A KR102640762B1 (ko) 2023-05-15 2023-05-15 화자 기반 영상 오토 스위칭 방법

Country Status (1)

Country Link
KR (1) KR102640762B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070056885A (ko) 2005-11-30 2007-06-04 주식회사 아이넷 동영상에서 카메라의 움직임에 따른 특징점 검출 방법 및그 방법으로 이루어진 프로그램을 기록한 컴퓨터로 읽을 수있는 매체
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
KR20180057315A (ko) * 2016-11-22 2018-05-30 한국전자통신연구원 자연어 발화 음성 판별 시스템 및 방법
JP2021022909A (ja) * 2019-07-30 2021-02-18 株式会社リコー 情報処理装置、情報処理プログラム、情報処理システム、情報処理方法
KR20210032550A (ko) * 2015-03-18 2021-03-24 아바타 머저 서브 Ii, 엘엘씨 비디오 회의에서의 감정 인식
KR20210128074A (ko) * 2020-04-16 2021-10-26 엘지전자 주식회사 립리딩 기반의 화자 검출에 따른 오디오 줌

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070056885A (ko) 2005-11-30 2007-06-04 주식회사 아이넷 동영상에서 카메라의 움직임에 따른 특징점 검출 방법 및그 방법으로 이루어진 프로그램을 기록한 컴퓨터로 읽을 수있는 매체
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
KR20210032550A (ko) * 2015-03-18 2021-03-24 아바타 머저 서브 Ii, 엘엘씨 비디오 회의에서의 감정 인식
KR20180057315A (ko) * 2016-11-22 2018-05-30 한국전자통신연구원 자연어 발화 음성 판별 시스템 및 방법
JP2021022909A (ja) * 2019-07-30 2021-02-18 株式会社リコー 情報処理装置、情報処理プログラム、情報処理システム、情報処理方法
KR20210128074A (ko) * 2020-04-16 2021-10-26 엘지전자 주식회사 립리딩 기반의 화자 검출에 따른 오디오 줌

Similar Documents

Publication Publication Date Title
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
Chen Audiovisual speech processing
US20070120966A1 (en) Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker
US11948241B2 (en) Robot and method for operating same
US8830244B2 (en) Information processing device capable of displaying a character representing a user, and information processing method thereof
US11548147B2 (en) Method and device for robot interactions
CN110475069B (zh) 图像的拍摄方法及装置
KR102230667B1 (ko) 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
KR20100094212A (ko) 아바타 얼굴 표정 제어장치
CN106683501A (zh) 一种ar儿童情景扮演投影教学方法及系统
JP4984583B2 (ja) 表示装置、プロジェクタ、表示システム、表示方法、表示プログラム、および記録媒体
US20170213576A1 (en) Live Comics Capturing Camera
Zobl et al. Action recognition in meeting scenarios using global motion features
CN110750152A (zh) 一种基于唇部动作的人机交互方法和系统
JP2016100033A (ja) 再生制御装置
CN116934926B (zh) 一种基于多模态数据融合的识别方法和系统
JP2020181022A (ja) 会議支援装置、会議支援システム、および会議支援プログラム
US11819996B2 (en) Expression feedback method and smart robot
CN106326804B (zh) 一种录音控制方法和装置
KR102640762B1 (ko) 화자 기반 영상 오토 스위칭 방법
CN117173295A (zh) 一种基于交互平台实现数字人与用户的交互方法
CN114513622A (zh) 说话人检测方法、设备、存储介质及程序产品
JPH05122689A (ja) テレビ会議システム
EP1936545A1 (en) Action guideline decision device
CN115862658A (zh) 提取目标说话者语音的系统和方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant