KR20190118139A - 영상 분석 시스템 및 그 방법 - Google Patents

영상 분석 시스템 및 그 방법 Download PDF

Info

Publication number
KR20190118139A
KR20190118139A KR1020190041527A KR20190041527A KR20190118139A KR 20190118139 A KR20190118139 A KR 20190118139A KR 1020190041527 A KR1020190041527 A KR 1020190041527A KR 20190041527 A KR20190041527 A KR 20190041527A KR 20190118139 A KR20190118139 A KR 20190118139A
Authority
KR
South Korea
Prior art keywords
information
subject
analysis
controller
image data
Prior art date
Application number
KR1020190041527A
Other languages
English (en)
Inventor
이형우
이상호
Original Assignee
주식회사 마이다스아이티
(주)마이다스인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마이다스아이티, (주)마이다스인 filed Critical 주식회사 마이다스아이티
Publication of KR20190118139A publication Critical patent/KR20190118139A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06K9/00268
    • G06K9/00302
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/005
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

본 발명은 영상 분석 시스템 및 그 방법을 개시한다. 즉, 본 발명은 피검자로부터 획득된 안면 촬영에 따른 영상 데이터와 질문에 대응한 음성 데이터를 통해 피검자의 생체적 반응 및 생리적 반응을 감지 및 분석하여 다양한 지표를 도출함으로써, 피검자의 외면적 요소를 편리하고 정확하게 분석 및 평가할 수 있다.

Description

영상 분석 시스템 및 그 방법{System for analyzing image and method thereof}
본 발명은 영상 분석 시스템 및 그 방법에 관한 것으로서, 특히 피검자로부터 획득된 안면 촬영에 따른 영상 데이터와 질문에 대응한 음성 데이터를 통해 피검자의 생체적 반응 및 생리적 반응을 감지 및 분석하여 다양한 지표를 도출하는 영상 분석 시스템 및 그 방법에 관한 것이다.
주어진 영상의 구조를 분석하여 특징을 추출하는 영상 분석 기술의 발전에 따라, 현재에는 영상 내 등장하는 배경과 객체를 구분하는 수준에서 벗어나, 영상 내 등장하는 객체의 종류를 판단 및 추적할 뿐만 아니라, 그 객체가 사람인 경우 사람의 행동을 구분하며, 표정을 통해 기분을 알아내거나 지시 사항을 판단하는 수준에 이르고 있다.
또한, 영상 분석 기술 분야에서는 시각 데이터에 해당하는 비디오 신호 이외에도, 이에 포함되는 청각 데이터인 오디오 신호에 대한 분석을 통해 화자가 말하고자 하는 내용을 컴퓨터가 인식할 수 있도록 함으로써, 다양한 관점에서 영상을 분석할 수 있게 되었다.
이러한 영상 분석 기술은, 컴퓨터를 이용한 영상처리 기술 및 빅 데이터에 기반한 기계학습 기술의 발전에 더불어 그 정확도가 지속적으로 개선되고 있다.
한국등록특허 제10-10-1782339호 [제목: 다중객체 영상분석 및 그 결과 제공을 위한 영상분석 시스템]
본 발명의 목적은 피검자로부터 획득된 안면 촬영에 따른 영상 데이터와 질문에 대응한 음성 데이터를 통해 피검자의 생체적 반응 및 생리적 반응을 감지 및 분석하여 다양한 지표를 도출하는 영상 분석 시스템 및 그 방법을 제공하는 데 있다.
본 발명의 다른 목적은 피검자의 영상 데이터와 음성 데이터를 포함하는 입력 정보를 근거로 기계 학습을 통해 피검자의 외면적 요소에 대한 분석 정보를 제공하는 영상 분석 시스템 및 그 방법을 제공하는 데 있다.
본 발명의 실시예에 따른 영상 분석 시스템은 복수의 사용자 정보를 저장하는 저장부; 피검자와 관련한 영상 데이터 및 음성 데이터를 포함하는 입력 정보를 수신하는 입력부; 및 상기 저장부에 미리 저장된 복수의 사용자 정보를 근거로 상기 수신된 입력 정보에 포함된 영상 데이터를 분석하여 상기 피검자의 정보를 확인하고, 상기 영상 데이터로부터 추출된 복수의 특징점을 근거로 피검자의 표정 및 움직임을 실시간으로 분석하여 제 1 분석 결과를 생성하고, 상기 영상 데이터를 근거로 피검자의 심장 박동에 따른 맥박 및 안면 색상의 변화를 분석하여 제 2 분석 결과를 생성하고, 상기 수신된 입력 정보에 포함된 음성 데이터를 근거로 피검자의 음색, 음높이, 휴지, 음크기 및 속도를 분석하여 제 3 분석 결과를 생성하고, 상기 음성 데이터를 SST 기능을 통해 텍스트로 변환하고, 상기 텍스트로 변환된 데이터에 대해서 어휘 능력을 분석하여 제 4 분석 결과를 생성하고, 상기 생성된 제 1 분석 결과 내지 제 4 분석 결과를 근거로 피검자의 외면적 요소에 대한 분석 정보를 생성하는 제어부를 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 입력 정보는, 인터뷰 진행에 따라 미리 설정된 복수의 질문에 대해서 상기 피검자가 응답하는 답변 정보인 상기 음성 데이터 및 상기 영상 데이터를 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 복수의 질문은, 자기소개를 포함하는 기본 질문, 상황질문, 피검자의 특성을 분석하기 위한 질문 및, 피검자의 강점 또는 약점을 확인하기 위한 심층구조화 질문 중 복수를 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 제어부는, 주요 단어 분석, 긍정 또는 부정 단어 사용 빈도 분석, 미사어구 분석 및 접속사 분석 중 적어도 하나에 대한 어휘 능력을 분석할 수 있다.
본 발명의 실시예에 따른 영상 분석 방법은 입력부에 의해, 피검자와 관련한 영상 데이터 및 음성 데이터를 포함하는 입력 정보를 수신하는 단계; 제어부에 의해, 저장부에 미리 등록된 복수의 사용자 정보를 근거로 상기 수신된 입력 정보에 포함된 영상 데이터를 분석하여 상기 피검자의 정보를 확인하는 단계; 상기 제어부에 의해, 상기 영상 데이터로부터 추출된 복수의 특징점을 근거로 피검자의 표정 및 움직임을 실시간으로 분석하고, 제 1 분석 결과를 생성하는 단계; 상기 제어부에 의해, 상기 수신된 입력 정보에 포함된 영상 데이터를 근거로 피검자의 심장 박동에 따른 맥박 및 안면 색상의 변화를 분석하고, 제 2 분석 결과를 생성하는 단계; 상기 제어부에 의해, 상기 수신된 입력 정보에 포함된 음성 데이터를 근거로 피검자의 음색, 음높이, 휴지, 음크기 및 속도를 분석하고, 제 3 분석 결과를 생성하는 단계; 상기 제어부에 의해, 상기 수신된 입력 정보에 포함된 음성 데이터를 SST 기능을 통해 텍스트로 변환하는 단계; 상기 제어부에 의해, 상기 텍스트로 변환된 데이터에 대해서 어휘 능력을 분석하고, 제 4 분석 결과를 생성하는 단계; 및 상기 제어부에 의해, 상기 생성된 제 1 분석 결과 내지 제 4 분석 결과를 근거로 피검자의 외면적 요소에 대한 분석 정보를 생성하는 단계를 포함할 수 있다.
본 발명과 관련된 일 예로서 상기 피검자의 정보를 확인하는 단계는, 상기 수신된 입력 정보에 포함된 영상 데이터를 근거로 피검자의 안면 영역을 추출하는 과정; 상기 추출된 안면 영역에서 미리 설정된 복수의 포인트에 대한 특징점을 추출하는 과정; 및 상기 저장부에 미리 등록된 복수의 사용자 정보 및 상기 추출된 복수의 특징점을 근거로 상기 피검자의 정보를 확인하는 과정을 포함할 수 있다.
본 발명은 피검자로부터 획득된 안면 촬영에 따른 영상 데이터와 질문에 대응한 음성 데이터를 통해 피검자의 생체적 반응 및 생리적 반응을 감지 및 분석하여 다양한 지표를 도출함으로써, 피검자의 외면적 요소를 편리하고 정확하게 분석 및 평가할 수 있는 효과가 있다.
또한, 본 발명은 피검자의 영상 데이터와 음성 데이터를 포함하는 입력 정보를 근거로 기계 학습을 통해 피검자의 외면적 요소에 대한 분석 정보를 제공함으로써, 피검자의 주요 특징을 빠르고 정확하게 파악하며, 피검자에게 적합한 직군 정보를 제공할 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 영상 분석 시스템의 구성을 나타낸 블록도이다.
도 2는 본 발명의 실시예에 따른 영상 분석 방법을 나타낸 흐름도이다.
도 3 내지 도 5는 본 발명의 실시예에 따른 화면의 예를 나타낸 도이다.
본 발명에서 사용되는 기술적 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 발명에서 사용되는 기술적 용어는 본 발명에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 발명에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 발명에서 "구성된다" 또는 "포함한다" 등의 용어는 발명에 기재된 여러 구성 요소들 또는 여러 단계를 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 발명에서 사용되는 제 1, 제 2 등과 같이 서수를 포함하는 용어는 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성 요소는 제 2 구성 요소로 명명될 수 있고, 유사하게 제 2 구성 요소도 제 1 구성 요소로 명명될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.
도 1은 본 발명의 실시예에 따른 영상 분석 시스템(10)의 구성을 나타낸 블록도이다.
도 1에 도시한 바와 같이, 영상 분석 시스템(10)은 입력부(100), 통신부(200), 저장부(300), 표시부(400), 음성 출력부(500) 및 제어부(600)로 구성된다. 도 1에 도시된 영상 분석 시스템(10)의 구성 요소 모두가 필수 구성 요소인 것은 아니며, 도 1에 도시된 구성 요소보다 많은 구성 요소에 의해 영상 분석 시스템(10)이 구현될 수도 있고, 그보다 적은 구성 요소에 의해서도 영상 분석 시스템(10)이 구현될 수도 있다.
상기 영상 분석 시스템(또는 영상 분석 단말)(10)은 스마트 폰(Smart Phone), 휴대 단말기(Portable Terminal), 이동 단말기(Mobile Terminal), 폴더블 단말기(Foldable Terminal), 개인 정보 단말기(Personal Digital Assistant: PDA), PMP(Portable Multimedia Player) 단말기, 텔레매틱스(Telematics) 단말기, 내비게이션(Navigation) 단말기, 개인용 컴퓨터(Personal Computer), 노트북 컴퓨터, 슬레이트 PC(Slate PC), 태블릿 PC(Tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(Wearable Device, 예를 들어, 워치형 단말기(Smartwatch), 글래스형 단말기(Smart Glass), HMD(Head Mounted Display) 등 포함), 와이브로(Wibro) 단말기, IPTV(Internet Protocol Television) 단말기, 스마트 TV, 디지털방송용 단말기, AVN(Audio Video Navigation) 단말기, A/V(Audio/Video) 시스템, 플렉시블 단말기(Flexible Terminal), 디지털 사이니지 장치 등과 같은 다양한 단말기에 적용될 수 있다.
상기 입력부(100)는 사용자에 의한 버튼 조작 또는 임의의 기능 선택에 따른 신호를 수신하거나, 디스플레이되는 화면을 터치/스크롤하는 등의 조작에 의해 생성된 명령 또는 제어 신호를 수신한다.
또한, 상기 입력부(100)는 사용자에 의해 입력된 정보에 대응하는 신호를 수신하며, 키 패드(Key Pad), 돔 스위치 (Dome Switch), 터치 패드(예를 들어 접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등 포함), 터치 스크린(Touch Screen), 조그 휠, 조그 스위치, 조그 셔틀(Jog Shuttle), 마우스(mouse), 스타일러스 펜(Stylus Pen), 터치 펜(Touch Pen) 등의 다양한 장치가 사용될 수 있다.
또한, 상기 입력부(100)는 오디오 신호 또는 비디오 신호를 입력받기 위한 적어도 하나 이상의 마이크(미도시)와 카메라(미도시) 등을 포함할 수 있다. 상기 마이크는 통화 모드, 녹음 모드, 음성 인식 모드, 영상 회의 모드, 영상 통화 모드 등에서 마이크로폰(Microphone)에 의해 외부의 음향 신호(사용자의 음성(음성 신호 또는 음성 정보) 포함)를 수신하여 전기적인 음성 데이터로 처리한다. 또한, 상기 처리된 음성 데이터는 상기 음성 출력부(500)를 통해 출력하거나 또는 상기 통신부(200)를 통하여 외부 단말기로 송신 가능한 형태로 변환되어 출력될 수 있다. 또한, 상기 마이크는 외부의 음향 신호를 입력받는 과정에서 발생하는 잡음을 제거하기 위한 다양한 잡음 제거 알고리즘이 구현될 수도 있다.
또한, 상기 카메라는 영상 통화 모드, 촬영 모드, 영상 회의 모드 등에서 이미지 센서(카메라 모듈 또는 카메라)에 의해 얻어지는 정지영상 또는 동영상 등의 화상 프레임을 처리한다. 즉, 코덱(CODEC)에 따라 상기 이미지 센서에 의해 얻어지는 해당 화상 데이터들을 각 규격에 맞도록 인코딩/디코딩한다. 상기 처리된 화상 프레임은 상기 제어부(600)의 제어에 의해 상기 표시부(400)에 표시될 수 있다. 일 예로, 상기 카메라는 객체(또는 피사체)(사용자 영상 또는 화상 회의자)를 촬영하고, 그 촬영된 영상(피사체 영상)에 대응하는 비디오 신호를 출력한다.
또한, 상기 카메라에서 처리된 화상 프레임은 상기 저장부(300)에 저장되거나 상기 통신부(200)를 통해 외부 단말기(화상 회의 시스템에 포함된 임의의 화상 회의 단말기 포함)로 전송될 수 있다.
또한, 상기 입력부(100)는 상기 카메라 및 상기 마이크를 통해 피검자(또는 면접자/지원자/사용자)와 관련한 영상 데이터 및 음성 데이터를 포함하는 입력 정보를 수신한다. 이때, 상기 입력 정보는 인터뷰 진행에 따라 미리 설정된 복수의 질문에 대해서 해당 피검자가 응답하는 답변 정보인 음성 데이터(또는 오디오 신호) 및 그에 따른 영상 데이터(또는 비디오 신호)를 포함한다. 여기서, 상기 복수의 질문은 자기소개와 같은 기본 질문(예를 들어 자기소개를 해보세요, 자신의 장단점에 대해 말해주세요 등 포함), 상황질문(예를 들어 1시간 동안 줄을 서고 있는데 거동이 불편한 노인분이 새치기를 하려 합니다. 어떻게 이야기하겠습니까? 등 포함), 피검자의 특성을 분석하기 위한 질문(예를 들어 어떤 일에 실패했어도 반드시 도전하는 편인가요?, 사람들 앞에 서면 실수할까 많이 불안해 하나요?, 본인의 능력이 뛰어나다고 생각하나요?, 평소 감정 기복이 심한 편인가요?, 생활이 매우 규칙적인 편인가요?, 당신은 사회 비판적인가요?, 다른 사람의 감정을 내 것처럼 느끼나요? 등 포함), 피검자의 강점/약점(또는 장점/단점)을 확인하기 위한 심층구조화 질문(예를 들어 더 좋은 성과를 만들기 위해 가장 중요한 것이 무엇이라고 생각합니까? 등과 같은 경험 및 상황에 대한 심층/구조화 질문, 그것을 위해 어떤 태도와 행동을 하시겠습니까?, 그 행동의 결과에 대체로 만족하시는 편입니까? 등과 같은 탐침 질문 등 포함) 등을 포함한다.
상기 통신부(200)는 유/무선 통신망을 통해 내부의 임의의 구성 요소 또는 외부의 임의의 적어도 하나의 단말기와 통신 연결한다. 이때, 상기 외부의 임의의 단말기는 단말(미도시), 서버(미도시) 등을 포함할 수 있다. 여기서, 무선 인터넷 기술로는 무선랜(Wireless LAN: WLAN), DLNA(Digital Living Network Alliance), 와이브로(Wireless Broadband: Wibro), 와이맥스(World Interoperability for Microwave Access: Wimax), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution: LTE), LTE-A(Long Term Evolution-Advanced), 광대역 무선 이동 통신 서비스(Wireless Mobile Broadband Service: WMBS) 등이 있으며, 상기 통신부(200)는 상기에서 나열되지 않은 인터넷 기술까지 포함한 범위에서 적어도 하나의 무선 인터넷 기술에 따라 데이터를 송수신하게 된다. 또한, 근거리 통신 기술로는 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association: IrDA), UWB(Ultra Wideband), 지그비(ZigBee), 인접 자장 통신(Near Field Communication: NFC), 초음파 통신(Ultra Sound Communication: USC), 가시광 통신(Visible Light Communication: VLC), 와이 파이(Wi-Fi), 와이 파이 다이렉트(Wi-Fi Direct) 등이 포함될 수 있다. 또한, 유선 통신 기술로는 전력선 통신(Power Line Communication: PLC), USB 통신, 이더넷(Ethernet), 시리얼 통신(serial communication), 광/동축 케이블 등이 포함될 수 있다.
또한, 상기 통신부(200)는 유니버설 시리얼 버스(Universal Serial Bus: USB)를 통해 임의의 단말과 정보를 상호 전송할 수 있다.
또한, 상기 통신부(200)는 이동통신을 위한 기술표준들 또는 통신방식(예를 들어, GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), CDMA2000(Code Division Multi Access 2000), EV-DO(Enhanced Voice-Data Optimized or Enhanced Voice-Data Only), WCDMA(Wideband CDMA), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등)에 따라 구축된 이동 통신망 상에서 기지국, 상기 단말, 상기 서버 등과 무선 신호를 송수신한다.
또한, 상기 통신부(200)는 상기 제어부(600)의 제어에 의해, 피검자와 관련한 단말(미도시)로부터 전송되는 입력 정보를 수신한다.
본 발명의 실시예에서는 상기 입력부(100)를 통해 상기 피검자와 관련한 입력 정보를 수신하는 것을 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 피검자와 관련한 단말을 통해 상기 입력 정보를 실시간으로 획득(또는 수집)하고, 상기 통신부(200)가 상기 단말로부터 실시간으로 전송되는 상기 입력 정보를 수신(또는 수집)할 수도 있다.
상기 저장부(300)는 다양한 사용자 인터페이스(User Interface: UI), 그래픽 사용자 인터페이스(Graphic User Interface: GUI) 등을 저장한다.
또한, 상기 저장부(300)는 상기 영상 분석 시스템(10)이 동작하는데 필요한 데이터와 프로그램 등을 저장한다.
즉, 상기 저장부(300)는 상기 영상 분석 시스템(10)에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 영상 분석 시스템(10)의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다. 또한, 이러한 응용 프로그램 중 적어도 일부는 영상 분석 시스템(10)의 기본적인 기능을 위하여 출고 당시부터 영상 분석 시스템(10) 상에 존재할 수 있다. 한편, 응용 프로그램은 상기 저장부(300)에 저장되고, 영상 분석 시스템(10)에 설치되어, 제어부(600)에 의하여 상기 영상 분석 시스템(10)의 동작(또는 기능)을 수행하도록 구동될 수 있다.
또한, 상기 저장부(300)는 플래시 메모리 타입(Flash Memory Type), 하드 디스크 타입(Hard Disk Type), 멀티미디어 카드 마이크로 타입(Multimedia Card Micro Type), 카드 타입의 메모리(예를 들면, SD 또는 XD 메모리 등), 자기 메모리, 자기 디스크, 광디스크, 램(Random Access Memory: RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory: ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 중 적어도 하나의 저장매체를 포함할 수 있다. 또한, 영상 분석 시스템(10)은 인터넷(internet)상에서 저장부(300)의 저장 기능을 수행하는 웹 스토리지(web storage)를 운영하거나, 또는 상기 웹 스토리지와 관련되어 동작할 수도 있다.
또한, 상기 저장부(300)는 상기 제어부(600)의 제어에 의해 상기 수신된 입력 정보 등을 저장한다.
또한, 상기 저장부(300)는 복수의 사용자 정보를 저장한다. 이때, 상기 사용자 정보는 인터뷰를 진행할 피검자 등에 대한 정보를 포함한다.
상기 표시부(또는 디스플레이부)(400)는 상기 제어부(600)의 제어에 의해 상기 저장부(300)에 저장된 사용자 인터페이스 및/또는 그래픽 사용자 인터페이스를 이용하여 다양한 메뉴 화면 등과 같은 다양한 콘텐츠를 표시할 수 있다. 여기서, 상기 표시부(400)에 표시되는 콘텐츠는 다양한 텍스트 또는 이미지 데이터(각종 정보 데이터 포함)와 아이콘, 리스트 메뉴, 콤보 박스 등의 데이터를 포함하는 메뉴 화면 등을 포함한다. 또한, 상기 표시부(400)는 터치 스크린 일 수 있다.
또한, 상기 표시부(400)는 액정 디스플레이(Liquid Crystal Display: LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display: TFT LCD), 유기 발광 다이오드(Organic Light-Emitting Diode: OLED), 플렉시블 디스플레이(Flexible Display), 3차원 디스플레이(3D Display), 전자잉크 디스플레이(e-ink display), LED(Light Emitting Diode) 중에서 적어도 하나를 포함할 수 있다.
또한, 상기 표시부(400)는 상기 제어부(600)의 제어에 의해 상기 수신된 입력 정보에 포함된 영상 데이터(또는 비디오 신호) 등을 표시한다.
상기 음성 출력부(500)는 상기 제어부(600)에 의해 소정 신호 처리된 신호에 포함된 음성 정보를 출력한다. 여기서, 상기 음성 출력부(500)에는 리시버(receiver), 스피커(speaker), 버저(buzzer) 등이 포함될 수 있다.
또한, 상기 음성 출력부(500)는 상기 제어부(600)에 의해 생성된 안내 음성을 출력한다.
또한, 상기 음성 출력부(500)는 상기 제어부(600)의 제어에 의해 상기 수신된 입력 정보에 포함된 음성 데이터(또는 오디오 신호)를 출력한다.
상기 제어부(controller, 또는 MCU(microcontroller unit)(600)는 상기 영상 분석 시스템(10)의 전반적인 제어 기능을 실행한다.
또한, 상기 제어부(600)는 상기 저장부(300)에 저장된 프로그램 및 데이터를 이용하여 영상 분석 시스템(10)의 전반적인 제어 기능을 실행한다. 상기 제어부(600)는 RAM, ROM, CPU, GPU, 버스를 포함할 수 있으며, RAM, ROM, CPU, GPU 등은 버스를 통해 서로 연결될 수 있다. CPU는 상기 저장부(300)에 액세스하여, 상기 저장부(300)에 저장된 O/S를 이용하여 부팅을 수행할 수 있으며, 상기 저장부(300)에 저장된 각종 프로그램, 콘텐츠, 데이터 등을 이용하여 다양한 동작을 수행할 수 있다.
또한, 상기 제어부(600)는 상기 저장부(300)에 미리 등록된 복수의 사용자 정보를 근거로 상기 수신된 입력 정보에 포함된 영상 데이터를 분석하여 해당 피검자의 정보를 확인한다.
즉, 상기 제어부(300)는 상기 수신된 입력 정보에 포함된 영상 데이터를 근거로 피검자의 안면 영역을 추출한다.
또한, 상기 제어부(600)는 상기 추출된 안면 영역에서 미리 설정된 복수의 포인트(예를 들어 64개의 포인트)에 대한 특징점을 추출한다.
또한, 상기 제어부(600)는 상기 저장부(300)에 미리 등록된 복수의 사용자 정보 및 상기 추출된 복수의 특징점을 근거로 해당 피검자의 정보(또는 사용자 정보)를 확인한다.
또한, 상기 제어부(600)는 상기 수신된 입력 정보에 포함된 전체 영상 데이터를 근거로 상기 확인된 피검자 정보에 따라서 해당 입력 정보 내의 영상 데이터에서 피검자를 추적하여, 피검자가 바뀌는지 여부를 확인(또는 대리 면접 등과 같은 부정 행위 감지)할 수 있다.
이때, 상기 제어부(600)는 상기 저장부(300)에 미리 등록된 복수의 사용자 정보와 일치하는 상기 입력 정보에 포함된 영상 데이터와 관련한 사용자가 확인되지 않는 경우, 사용자가 확인되지 않음을 나타내는 알람 정보를 상기 표시부(400) 및/또는 상기 음성 출력부(500)를 통해 출력한다.
또한, 상기 제어부(600)는 상기 추출된 복수의 특징점을 근거로 피검자의 표정 및 움직임을 실시간으로 분석하고, 분석 결과를 생성한다. 여기서, 상기 제어부(600)는 실시간으로 인터뷰가 진행됨에 따라, 심층 신경망(deep neural network) 방식을 적용하여 피검자의 표정 및 움직임에 따른 피검자의 외면적 특성을 분석할 수 있다.
즉, 상기 제어부(600)는 상기 복수의 포인트(예를 들어 64개의 포인트)의 변화에 대응하여 피검자의 표정 및 움직임을 실시간으로 분석한다.
또한, 상기 제어부(600)는 상기 수신된 입력 정보에 포함된 영상 데이터로부터 추정되는 피검자의 심장 박동에 따른 맥박(또는 맥박 측정/변화), 안면 색상의 변화 등을 분석하고, 분석 결과를 생성한다. 여기서, 상기 제어부(600)는 피검자의 피부 영역에서 시간의 흐름에 따른 색상 변화에 의한 색상 데이터를 이용해서 피검자의 맥박을 측정할 수 있다.
또한, 상기 제어부(600)는 상기 수신된 입력 정보에 포함된 음성 데이터를 근거로 피검자의 음색, 음높이, 휴지, 음크기, 속도 등을 분석하고, 분석 결과를 생성한다.
즉, 상기 제어부(600)는 상기 입력 정보에 포함된 음성 데이터를 밀리 세컨드 단위까지 추출하여, 피검자의 음색, 음높이, 휴지, 음크기, 속도 등을 분석한다.
또한, 상기 제어부(600)는 상기 수신된 입력 정보에 포함된 음성 데이터를 SST(Speech to Text) 기능을 통해 텍스트로 변환한다.
또한, 상기 제어부(600)는 상기 텍스트로 변환된 데이터에 대해서 어휘 능력을 분석하고, 분석 결과를 생성한다. 여기서, 상기 어휘 능력 분석은 주요 단어 분석, 긍정/부정 단어 사용 빈도 분석, 미사어구 분석, 접속사 분석 등을 포함한다.
이때, 상기 제어부(600)는 상기 복수의 질문에 대한 각각의 답변 정보별로 해당 피검자의 표정 및 움직임과, 해당 피검자의 심장 박동에 따른 맥박 변화, 안면 색상의 변화와, 해당 피검자의 음색, 음높이, 휴지, 음크기, 속도와, 해당 피검자의 음성 데이터와 관련한 어휘 능력 등을 분석(또는 추적)하고, 답변 정보별로 분석 결과를 생성할 수 있다.
본 발명의 실시예에서는, 상기 제어부(600)에서 상기 피검자의 표정 및 움직임에 대한 분석 기능, 피검자의 심장 박동에 따른 맥박 측정(또는 맥박 변화), 안면 색상의 변화 분석 기능, 피검자의 음색, 음높이, 휴지, 음크기, 속도 분석 기능, 피검자의 어휘 능력 분석 기능을 병렬적으로 수행하는 것을 설명하고 있으나, 이에 한정되는 것은 아니며, 상기 제어부(600)에서 상기 영상 분석 시스템(10)에 포함된 복수의 모듈(예를 들어 비전 분석부, 바이탈 분석부, 보이스 분석부, 버발 분석부 등 포함)을 통해 실시간으로 분산 처리(또는 병렬 처리)할 수도 있다.
또한, 상기 제어부(600)는 상기 분석된 복수의 정보를 근거로 피검자의 외면적 요소에 대한 분석 정보를 생성한다.
즉, 상기 제어부(600)는 미리 설정된 복수의 직군별 특성에 따라 상기 분석된 피검자의 표정 및 움직임에 대한 정보, 상기 분석된 피검자의 심장 박동에 따른 맥박, 안면 색상의 변화에 대한 정보, 상기 분석된 피검자의 음색, 음높이, 휴지, 음크기, 속도에 대한 정보, 상기 분석된 어휘에 대한 정보 등을 근거로 상기 피검자의 외면적 요소에 대한 분석 정보를 생성한다.
이때, 상기 제어부(600)는 상기 미리 설정된 복수의 직군별 특성과 상기 복수의 질문에 대한 각각의 답변 정보별 분석 결과를 근거로 피검자의 외면적 요소에 대한 분석 정보를 생성할 수 있다.
또한, 상기 제어부(600)는 상기 생성된 피검자의 외면적 요소에 대한 분석 정보를 표시부(500) 및/또는 음성 출력부(600)를 통해 출력하거나 또는, 통신부(200)를 통해 외부 단말(미도시)에 제공한다.
이와 같이, 상기 제어부(600)는 표정, 음성, 언어 등 외면적으로 드러나는 피검자의 생체적 반응 특성과, 표피의 떨림, 안면 색상의 변화, 음성의 떨림 등으로 맥박이나 혈류와 같은 생리적 반응 특성을 근거로 해당 피검자에 대한 분석 정보를 생성하고, 상기 분석 정보는 피검자의 성격, 지원한 분야에 대한 적성 등을 판단하는데 활용될 수 있으며, 이에 기초하여 피검자에 대한 역량을 도출할 수 있다.
또한, 상기 제어부(600)는 상기 분석 결과, 상기 분석 정보 등에 대해 기계학습 과정을 통해 정확도를 향상시키고, 이후 인터뷰 시스템 등에 적용할 수 있다.
즉, 상기 영상 분석 시스템(10)이 온라인 인터뷰 시스템에 활용되는 경우, 원격지에 설치된 카메라를 통해 피검자의 안면을 실시간으로 촬영하는 동시에 해당 피검자의 음성을 감지하여, 각각의 특성에 따라 분석을 수행하고, 분석 정보를 인터뷰에 반영할 수 있다.
이러한 영상 인식 시스템을 활용한 인터뷰 시스템은 피검자를 촬영하여 피검자의 안면을 포함하는 안면 이미지를 획득하고, 피검자로 등록한다. 다음으로, 등록된 안면 이미지로부터 안면 영역을 인식 및 추출하고, 사람의 얼굴 특징에 기반하여 복수의 포인트를 추출 및 설정하게 된다.
또한, 실시간으로 인터뷰가 진행됨에 따라, 심층 신경망 방식을 적용하여 상기 복수의 포인트의 변화에 따른 피검자의 표정 및 움직임에 따른 피검자의 외면적 특성을 분석하게 된다.
이후, 인터뷰가 종료되면, 피검자 본인 확인 및 분석 결과의 신뢰도를 측정하고, 피검자의 직군, 직무 등에 대한 평가를 제공할 수 있다.
이와 같이, 피검자로부터 획득된 안면 촬영에 따른 영상 데이터와 질문에 대응한 음성 데이터를 통해 피검자의 생체적 반응 및 생리적 반응을 감지 및 분석하여 다양한 지표를 도출할 수 있다.
또한, 이와 같이, 피검자의 영상 데이터와 음성 데이터를 포함하는 입력 정보를 근거로 기계 학습을 통해 피검자의 외면적 요소에 대한 분석 정보를 제공할 수 있다.
이하에서는, 본 발명에 따른 영상 분석 방법을 도 1 내지 도 5를 참조하여 상세히 설명한다.
도 2는 본 발명의 실시예에 따른 영상 분석 방법을 나타낸 흐름도이다.
먼저, 입력부(100)는 상기 입력부(100)에 포함된 카메라(미도시) 및 마이크(미도시)를 통해 피검자(또는 면접자/지원자/사용자)와 관련한 영상 데이터 및 음성 데이터를 포함하는 입력 정보를 수신한다. 이때, 상기 입력 정보는 인터뷰 진행에 따라 미리 설정된 복수의 질문에 대해서 해당 피검자가 응답하는 답변 정보인 음성 데이터(또는 오디오 신호) 및 그에 따른 영상 데이터(또는 비디오 신호)를 포함한다. 여기서, 상기 복수의 질문은 자기소개와 같은 기본 질문(예를 들어 자기소개를 해보세요, 자신의 장단점에 대해 말해주세요 등 포함), 상황질문(예를 들어 1시간 동안 줄을 서고 있는데 거동이 불편한 노인분이 새치기를 하려 합니다. 어떻게 이야기하겠습니까? 등 포함), 피검자의 특성을 분석하기 위한 질문(예를 들어 어떤 일에 실패했어도 반드시 도전하는 편인가요?, 사람들 앞에 서면 실수할까 많이 불안해 하나요?, 본인의 능력이 뛰어나다고 생각하나요?, 평소 감정 기복이 심한 편인가요?, 생활이 매우 규칙적인 편인가요?, 당신은 사회 비판적인가요?, 다른 사람의 감정을 내 것처럼 느끼나요? 등 포함), 피검자의 강점/약점(또는 장점/단점)을 확인하기 위한 심층구조화 질문(예를 들어 더 좋은 성과를 만들기 위해 가장 중요한 것이 무엇이라고 생각합니까? 등과 같은 경험 및 상황에 대한 심층/구조화 질문, 그것을 위해 어떤 태도와 행동을 하시겠습니까?, 그 행동의 결과에 대체로 만족하시는 편입니까? 등과 같은 탐침 질문 등 포함) 등을 포함한다.
일 예로, 상기 입력부(100)는 미리 설정된 제 1 질문 내지 제 10 질문에 대해서 면접자인 홍길동이 각 질문에 대해 답변하는 제 1 답변 정보 내지 제 10 답변 정보와 관련한 10분 동안의 제 1 음성 데이터 및 제 1 영상 데이터를 포함하는 제 1 입력 정보(또는 제 1 입력 데이터)를 수신한다(S210).
이후, 제어부(600)는 저장부(300)에 미리 등록된 복수의 사용자 정보를 근거로 상기 수신된 입력 정보에 포함된 영상 데이터를 분석하여 해당 피검자의 정보를 확인한다.
즉, 상기 제어부(300)는 상기 수신된 입력 정보에 포함된 영상 데이터를 근거로 피검자의 안면 영역을 추출한다.
또한, 상기 제어부(600)는 상기 추출된 안면 영역에서 미리 설정된 복수의 포인트(예를 들어 64개의 포인트)에 대한 특징점을 추출한다.
또한, 상기 제어부(600)는 상기 저장부(300)에 미리 등록된 복수의 사용자 정보 및 상기 추출된 복수의 특징점을 근거로 해당 피검자의 정보(또는 사용자 정보)를 확인한다.
또한, 상기 제어부(600)는 상기 수신된 입력 정보에 포함된 전체 영상 데이터를 근거로 상기 확인된 피검자 정보에 따라서 해당 입력 정보 내의 영상 데이터에서 피검자를 추적하여, 피검자가 바뀌는지 여부를 확인(또는 대리 면접 등과 같은 부정 행위 감지)할 수 있다.
일 예로, 도 3에 도시된 바와 같이, 상기 제어부(600)는 상기 수신된 제 1 입력 정보에 포함된 제 1 영상 데이터에서 피검자의 안면 영역을 추출한다.
또한, 도 4에 도시된 바와 같이, 상기 제어부(600)는 상기 추출된 안면 영역에서 미리 설정된 64개의 포인트에 대한 각각의 특징점을 추출한다.
또한, 상기 제어부(600)는 상기 저장부(300)에 미리 등록된 복수의 사용자 정보 및 상기 추출된 64개의 특징점을 근거로 해당 피검자의 정보(예를 들어 홍길동과 관련한 정보)를 확인한다(S220).
또한, 상기 제어부(600)는 상기 추출된 복수의 특징점을 근거로 피검자의 표정 및 움직임을 실시간으로 분석하고, 분석 결과를 생성한다. 여기서, 상기 제어부(600)는 실시간으로 인터뷰가 진행됨에 따라, 심층 신경망(deep neural network) 방식을 적용하여 피검자의 표정 및 움직임에 따른 피검자의 외면적 특성을 분석할 수 있다.
이때, 상기 제어부(600)는 상기 복수의 질문에 대한 각각의 답변 정보별로 해당 피검자의 표정 및 움직임을 분석(또는 추적)하고, 답변 정보별로 분석 결과를 생성할 수 있다.
일 예로, 상기 제어부(600)는 상기 제 1 답변 정보 내지 상기 제 10 답변 정보에 대해서 상기 홍길동이 각 질문에 답변하는 10분 동안의 제 1 영상 데이터에 따른 홍길동의 표정 변화, 움직임 변화를 실시간으로 분석하고, 상기 10분 동안의 제 1 영상 데이터에 대한 분석에 따른 답변 정보별 상기 홍길동의 표정 변화, 움직임 변화에 대한 제 1 분석 정보를 생성한다(S230).
또한, 상기 제어부(600)는 상기 수신된 입력 정보에 포함된 영상 데이터를 근거로 피검자의 심장 박동에 따른 맥박(또는 맥박 측정/변화), 안면 색상의 변화 등을 분석하고, 분석 결과를 생성한다. 여기서, 상기 제어부(600)는 피검자의 피부 영역에서 시간의 흐름에 따른 색상 변화에 의한 색상 데이터를 이용해서 피검자의 맥박을 측정할 수 있다.
이때, 상기 제어부(600)는 상기 복수의 질문에 대한 각각의 답변 정보별로 해당 피검자의 심장 박동에 따른 맥박 변화, 안면 색상의 변화 등을 분석(또는 추적)하고, 답변 정보별로 분석 결과를 생성할 수 있다.
일 예로, 상기 제어부(600)는 상기 제 1 답변 정보 내지 상기 제 10 답변 정보에 대해서 상기 홍길동이 각 질문에 답변하는 10분 동안의 제 1 영상 데이터 상에서, 피부 영역에서의 색상 변화에 의한 맥박 측정, 안면 색상의 변화 등을 분석하고, 상기 10분 동안의 제 1 영상 데이터에 대한 분석에 따른 답변 정보별 상기 홍길동의 맥박, 안면 색상의 변화 등에 대한 제 2 분석 정보를 생성한다(S240).
또한, 상기 제어부(600)는 상기 수신된 입력 정보에 포함된 음성 데이터를 근거로 피검자의 음색, 음높이, 휴지, 음크기, 속도 등을 분석하고, 분석 결과를 생성한다.
이때, 상기 제어부(600)는 상기 복수의 질문에 대한 각각의 답변 정보별로 해당 피검자의 음색, 음높이, 휴지, 음크기, 속도 등을 분석(또는 추적)하고, 답변 정보별로 분석 결과를 생성할 수 있다.
일 예로, 상기 제어부(600)는 상기 제 1 답변 정보 내지 상기 제 10 답변 정보에 대해서 상기 홍길동이 각 질문에 답변하는 10분 동안의 제 1 음성 데이터 상에서, 각 답변 정보별로 홍길동의 음색, 음높이, 휴지, 음크기, 속도 등을 분석하고, 상기 10분 동안의 제 1 음성 데이터에 대한 분석에 따른 답변 정보별로 상기 홍길동의 음색, 음높이, 휴지, 음크기, 속도 등에 대한 제 3 분석 정보를 생성한다(S250).
또한, 상기 제어부(600)는 상기 수신된 입력 정보에 포함된 음성 데이터를 SST 기능을 통해 텍스트로 변환한다.
또한, 상기 제어부(600)는 상기 텍스트로 변환된 데이터에 대해서 어휘 능력을 분석하고, 분석 결과를 생성한다. 여기서, 상기 어휘 능력 분석은 주요 단어 분석, 긍정/부정 단어 사용 빈도 분석, 미사어구 분석, 접속사 분석 등을 포함한다.
이때, 상기 제어부(600)는 상기 복수의 질문에 대한 각각의 답변 정보별로 해당 피검자의 음성 데이터와 관련한 어휘 능력을 분석(또는 추적)하고, 답변 정보별로 분석 결과를 생성할 수 있다.
일 예로, 상기 제어부(600)는 상기 제 1 답변 정보 내지 상기 제 10 답변 정보에 대해서 상기 홍길동이 각 질문에 답변하는 10분 동안의 제 1 음성 데이터를 텍스트로 변환한다.
또한, 상기 제어부(600)는 상기 변환된 10분 분량의 텍스트에 대해서 어휘 능력을 분석하고, 상기 10분 동안의 제 1 음성 데이터에 대한 분석에 따른 답변 정보별로 상기 홍길동의 어휘 능력 분석에 대한 제 4 분석 정보를 생성한다(S260).
이후, 상기 제어부(600)는 상기 분석된 복수의 정보를 근거로 피검자의 외면적 요소에 대한 분석 정보를 생성한다.
즉, 상기 제어부(600)는 미리 설정된 복수의 직군별 특성에 따라 상기 분석된 피검자의 표정 및 움직임에 대한 정보, 상기 분석된 피검자의 심장 박동에 따른 맥박, 안면 색상의 변화에 대한 정보, 상기 분석된 피검자의 음색, 음높이, 휴지, 음크기, 속도에 대한 정보, 상기 분석된 어휘에 대한 정보 등을 근거로 상기 피검자의 외면적 요소에 대한 분석 정보를 생성한다.
이때, 상기 제어부(600)는 상기 미리 설정된 복수의 직군별 특성과 상기 복수의 질문에 대한 각각의 답변 정보별 분석 결과를 근거로 피검자의 외면적 요소에 대한 분석 정보를 생성할 수 있다.
또한, 상기 제어부(600)는 상기 생성된 피검자의 외면적 요소에 대한 분석 정보를 표시부(500) 및/또는 음성 출력부(600)를 통해 출력하거나 또는, 통신부(200)를 통해 외부 단말(미도시)에 제공한다.
이와 같이, 상기 제어부(600)는 표정, 음성, 언어 등 외면적으로 드러나는 피검자의 생체적 반응 특성과, 표피의 떨림, 안면 색상의 변화, 음성의 떨림 등으로 맥박이나 혈류와 같은 생리적 반응 특성을 근거로 해당 피검자에 대한 분석 정보를 생성하고, 상기 분석 정보는 피검자의 성격, 지원한 분야에 대한 적성 등을 판단하는데 활용될 수 있으며, 이에 기초하여 피검자에 대한 역량을 도출할 수 있다.
또한, 상기 제어부(600)는 상기 분석 결과, 상기 분석 정보 등에 대해 기계학습 과정을 통해 정확도를 향상시키고, 이후 인터뷰 시스템 등에 적용할 수 있다.
일 예로, 상기 제어부(600)는 미리 설정된 8개 직군 및 28개 직무에 대한 정보와, 상기 제 1 답변 정보 내지 제 10 답변 정보에 대한 각 답변 정보별 분석 결과인 상기 10분 동안의 제 1 영상 데이터에 대한 분석에 따른 상기 홍길동의 표정 변화, 움직임 변화에 대한 제 1 분석 정보, 상기 10분 동안의 제 1 영상 데이터에 대한 분석에 따른 상기 홍길동의 맥박, 안면 색상의 변화 등에 대한 제 2 분석 정보, 상기 10분 동안의 제 1 음성 데이터에 대한 분석에 따른 상기 홍길동의 답변 정보별로 홍길동의 음색, 음높이, 휴지, 음크기, 속도 등에 대한 제 3 분석 정보, 상기 10분 동안의 제 1 음성 데이터에 대한 분석에 따른 상기 홍길동의 어휘 능력 분석에 대한 제 4 분석 정보 등을 근거로 해당 홍길동에게 적합한 직군인 1순위 연구개발(96%), 2순위 경영지원(82%), 3순위 생산관리(47%) 등의 정보와, 연구개발 중 직무 1순위 소프트 엔지니어 등의 정보를 포함하는 면접자인 홍길동에 대한 분석 정보를 생성한다.
또한, 도 5에 도시된 바와 같이, 상기 제어부(600)는 상기 생성된 제 홍길동에 대한 분석 정보(1400)를 상기 표시부(500) 및/또는 상기 음성 출력부(600)를 통해 출력한다(S270).
본 발명의 실시예는 앞서 설명된 바와 같이, 피검자로부터 획득된 안면 촬영에 따른 영상 데이터와 질문에 대응한 음성 데이터를 통해 피검자의 생체적 반응 및 생리적 반응을 감지 및 분석하여 다양한 지표를 도출하여, 피검자의 외면적 요소를 편리하고 정확하게 분석 및 평가할 수 있다.
또한, 본 발명의 실시예는 앞서 설명된 바와 같이, 피검자의 영상 데이터와 음성 데이터를 포함하는 입력 정보를 근거로 기계 학습을 통해 피검자의 외면적 요소에 대한 분석 정보를 제공하여, 피검자의 주요 특징을 빠르고 정확하게 파악하며, 피검자에게 적합한 직군 정보를 제공할 수 있다.
전술된 내용은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
10: 영상 분석 시스템 100: 입력부
200: 통신부 300: 저장부
400: 표시부 500: 음성 출력부
600: 제어부

Claims (6)

  1. 복수의 사용자 정보를 저장하는 저장부;
    피검자와 관련한 영상 데이터 및 음성 데이터를 포함하는 입력 정보를 수신하는 입력부; 및
    상기 저장부에 미리 저장된 복수의 사용자 정보를 근거로 상기 수신된 입력 정보에 포함된 영상 데이터를 분석하여 상기 피검자의 정보를 확인하고, 상기 영상 데이터로부터 추출된 복수의 특징점을 근거로 피검자의 표정 및 움직임을 실시간으로 분석하여 제 1 분석 결과를 생성하고, 상기 영상 데이터를 근거로 피검자의 심장 박동에 따른 맥박 및 안면 색상의 변화를 분석하여 제 2 분석 결과를 생성하고, 상기 수신된 입력 정보에 포함된 음성 데이터를 근거로 피검자의 음색, 음높이, 휴지, 음크기 및 속도를 분석하여 제 3 분석 결과를 생성하고, 상기 음성 데이터를 SST 기능을 통해 텍스트로 변환하고, 상기 텍스트로 변환된 데이터에 대해서 어휘 능력을 분석하여 제 4 분석 결과를 생성하고, 상기 생성된 제 1 분석 결과 내지 제 4 분석 결과를 근거로 피검자의 외면적 요소에 대한 분석 정보를 생성하는 제어부를 포함하는 영상 분석 시스템.
  2. 제 1 항에 있어서,
    상기 입력 정보는,
    인터뷰 진행에 따라 미리 설정된 복수의 질문에 대해서 상기 피검자가 응답하는 답변 정보인 상기 음성 데이터 및 상기 영상 데이터를 포함하는 것을 특징으로 하는 영상 분석 시스템.
  3. 제 2 항에 있어서,
    상기 복수의 질문은,
    자기소개를 포함하는 기본 질문, 상황질문, 피검자의 특성을 분석하기 위한 질문 및, 피검자의 강점 또는 약점을 확인하기 위한 심층구조화 질문 중 복수를 포함하는 것을 특징으로 하는 영상 분석 시스템.
  4. 제 1 항에 있어서,
    상기 제어부는,
    주요 단어 분석, 긍정 또는 부정 단어 사용 빈도 분석, 미사어구 분석 및 접속사 분석 중 적어도 하나에 대한 어휘 능력을 분석하는 것을 특징으로 하는 영상 분석 시스템.
  5. 입력부에 의해, 피검자와 관련한 영상 데이터 및 음성 데이터를 포함하는 입력 정보를 수신하는 단계;
    제어부에 의해, 저장부에 미리 등록된 복수의 사용자 정보를 근거로 상기 수신된 입력 정보에 포함된 영상 데이터를 분석하여 상기 피검자의 정보를 확인하는 단계;
    상기 제어부에 의해, 상기 영상 데이터로부터 추출된 복수의 특징점을 근거로 피검자의 표정 및 움직임을 실시간으로 분석하고, 제 1 분석 결과를 생성하는 단계;
    상기 제어부에 의해, 상기 수신된 입력 정보에 포함된 영상 데이터를 근거로 피검자의 심장 박동에 따른 맥박 및 안면 색상의 변화를 분석하고, 제 2 분석 결과를 생성하는 단계;
    상기 제어부에 의해, 상기 수신된 입력 정보에 포함된 음성 데이터를 근거로 피검자의 음색, 음높이, 휴지, 음크기 및 속도를 분석하고, 제 3 분석 결과를 생성하는 단계;
    상기 제어부에 의해, 상기 수신된 입력 정보에 포함된 음성 데이터를 SST 기능을 통해 텍스트로 변환하는 단계;
    상기 제어부에 의해, 상기 텍스트로 변환된 데이터에 대해서 어휘 능력을 분석하고, 제 4 분석 결과를 생성하는 단계; 및
    상기 제어부에 의해, 상기 생성된 제 1 분석 결과 내지 제 4 분석 결과를 근거로 피검자의 외면적 요소에 대한 분석 정보를 생성하는 단계를 포함하는 영상 분석 방법.
  6. 제 5 항에 있어서,
    상기 피검자의 정보를 확인하는 단계는,
    상기 수신된 입력 정보에 포함된 영상 데이터를 근거로 피검자의 안면 영역을 추출하는 과정;
    상기 추출된 안면 영역에서 미리 설정된 복수의 포인트에 대한 특징점을 추출하는 과정; 및
    상기 저장부에 미리 등록된 복수의 사용자 정보 및 상기 추출된 복수의 특징점을 근거로 상기 피검자의 정보를 확인하는 과정을 포함하는 것을 특징으로 하는 영상 분석 방법.
KR1020190041527A 2018-04-09 2019-04-09 영상 분석 시스템 및 그 방법 KR20190118139A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180041240 2018-04-09
KR20180041240 2018-04-09

Publications (1)

Publication Number Publication Date
KR20190118139A true KR20190118139A (ko) 2019-10-17

Family

ID=68424251

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190041527A KR20190118139A (ko) 2018-04-09 2019-04-09 영상 분석 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20190118139A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102187210B1 (ko) * 2020-06-22 2020-12-04 주식회사 플랙스 영상 일기를 이용한 심리 상태 분석 장치 및 방법
KR102472170B1 (ko) * 2021-12-21 2022-11-30 노승건 인공지능 영상 분석 기반 보안적 화상회의 실행 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101782339B1 (ko) 2016-01-29 2017-10-12 케이에스아이 주식회사 다중객체 영상분석 및 그 결과 제공을 위한 영상분석 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101782339B1 (ko) 2016-01-29 2017-10-12 케이에스아이 주식회사 다중객체 영상분석 및 그 결과 제공을 위한 영상분석 시스템

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102187210B1 (ko) * 2020-06-22 2020-12-04 주식회사 플랙스 영상 일기를 이용한 심리 상태 분석 장치 및 방법
WO2021261887A1 (ko) * 2020-06-22 2021-12-30 주식회사 플랙스 영상 일기를 이용한 심리 상태 분석 장치 및 방법
KR102472170B1 (ko) * 2021-12-21 2022-11-30 노승건 인공지능 영상 분석 기반 보안적 화상회의 실행 방법

Similar Documents

Publication Publication Date Title
US10522143B2 (en) Empathetic personal virtual digital assistant
CN108806669B (zh) 用于提供语音识别服务的电子装置及其方法
US20170116870A1 (en) Automatic test personalization
US9900427B2 (en) Electronic device and method for displaying call information thereof
TWI674516B (zh) 動畫顯示方法及人機交互裝置
US11033216B2 (en) Augmenting questionnaires
EP3693966A1 (en) System and method for continuous privacy-preserved audio collection
US20160259968A1 (en) Rapid cognitive mobile application review
US10778353B2 (en) Providing real-time audience awareness to speaker
US20160307563A1 (en) Methods and systems for detecting plagiarism in a conversation
KR102199928B1 (ko) 사용자 페르소나를 고려한 대화형 에이전트 장치 및 방법
US20200075008A1 (en) Voice data processing method and electronic device for supporting same
WO2022095674A1 (zh) 用于操作移动设备的方法和装置
CN111984180B (zh) 终端读屏方法、装置、设备及计算机可读存储介质
KR20190118139A (ko) 영상 분석 시스템 및 그 방법
US11798675B2 (en) Generating and searching data structures that facilitate measurement-informed treatment recommendation
CN111046852A (zh) 个人学习路径生成方法、设备及可读存储介质
US10930169B2 (en) Computationally derived assessment in childhood education systems
Mennig et al. Supporting rapid product changes through emotional tracking
US20230061210A1 (en) Method and system of automated question generation for speech assistance
US11538355B2 (en) Methods and systems for predicting a condition of living-being in an environment
CN111128237B (zh) 语音评测方法、装置、存储介质和电子设备
CN112951274A (zh) 语音相似度确定方法及设备、程序产品
CN112309389A (zh) 信息交互方法和装置
CN110765326A (zh) 推荐方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E601 Decision to refuse application