KR20220147998A - 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법 - Google Patents

음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법 Download PDF

Info

Publication number
KR20220147998A
KR20220147998A KR1020210055204A KR20210055204A KR20220147998A KR 20220147998 A KR20220147998 A KR 20220147998A KR 1020210055204 A KR1020210055204 A KR 1020210055204A KR 20210055204 A KR20210055204 A KR 20210055204A KR 20220147998 A KR20220147998 A KR 20220147998A
Authority
KR
South Korea
Prior art keywords
data
image
voice
audio
identification
Prior art date
Application number
KR1020210055204A
Other languages
English (en)
Other versions
KR102535244B1 (ko
Inventor
김용태
홍윤택
Original Assignee
주식회사 와이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이티 filed Critical 주식회사 와이티
Priority to KR1020210055204A priority Critical patent/KR102535244B1/ko
Publication of KR20220147998A publication Critical patent/KR20220147998A/ko
Application granted granted Critical
Publication of KR102535244B1 publication Critical patent/KR102535244B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • G06K9/6201
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/50Maintenance of biometric data or enrolment thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)

Abstract

본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템은 신원확인자의 신원확인 데이터 및 기초데이터를 수집하는 데이터수집부; 상기 신원확인 데이터의 특징을 추출하고 특징데이터를 생성하는 특징추출부; 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 학습부; 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 분석부;및 상기 신원확인 결과를 출력하는 출력부;를 포함하는 점에 그 특징이 있다.
본 발명에 따르면, 마스크를 착용한 사람의 경우에도 마스크를 쓴 상태에서 신원확인이 가능하게하기 위하여 음성인식 및 안면의 일부만을 이용하여 신원을 확인할 수 있다.

Description

음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법{identification system and method using landmark of part of the face and voice recognition}
본 발명은 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법에 관한 것으로, 특히 마스크를 착용한 사람의 경우에도 마스크를 쓴 상태에서 신원확인이 가능하게하기 위하여 음성인식 및 안면의 일부만을 이용하여 신원을 확인할 수 있는 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법에 관한 것이다.
데이터 보안 기술 중, 특히 사용자 자신이 통제권을 갖는 다양한 생체인식 기술을 기반으로 하는 인증 솔루션에 대한 관심이 증대하고 있으며, 공지된 생체인식 기술로는 지문, 홍채, 안면인식 등이 있다.
또한, 신원 확인 방법으로 음성인식 기술이 대두되고 있다. 음성 인식 기술은 이미 스마트폰, 자동차, 콜센터 등 현재 우리 생활 의 많은 부분에 녹아들어서 서비스화되고 있다.
이중, 안면인식(Face Recognition)기술은 얼굴의 특징점을 추출하여 저장된 데이터베이스 내 자료와 비교하여 신원을 확인하는 기술을 가리키는 것으로, 사용자의 피부가 인증 장치와 직접적으로 접촉하지 않기 때문에 기존의 생체인식에 비해 위생적이고 편의성이 높아 다양한 분야에서 활용성이 기대된다.
최근 영상 인식 기술의 발전으로 인해, 신원확인을 위한 수단으로서 얼굴 인식을 이용하는 얼굴 인식 기반 신원확인 기술이 활발히 개발되고 있다. 얼굴 인식의 경우 사용자가 신원확인을 위한 얼굴 인식 기기에 얼굴을 위치시키면 신원확인 동작이 수행되므로, 사용자 편의성이 매우 뛰어난 장점이 있다.
그러나, 얼굴 인식 기반 신원확인 기술의 경우, 영상 내에 측면 얼굴만 포함되어 있거나 모자/안경/마스크 등으로 인하여 얼굴 영상(특히, 얼굴 정면부)에 일부 또는 전부의 가림이 존재하는 경우에 인식률이 저하되는 단점이 존재한다.
그러나, 현재기술 수준에서 안면인식 기술은 지문인식과 같은 타 생체인식 기술보다 오인식률(False Acceptance Rate)이 높은 편이며, 이에 신원 확인 수단이 아닌 보조수단으로 활용되어 왔다. 안면인식 기술의 오인식률을 해결하기 위해서는, 딥 러닝과 같은 인공지능(AI)기술을 이용하여 정확도를 높일 수 있는 지속적인 연구가 필요하다고 할 수 있다.
또한, 코로나19와 같은 상황이 전세계적으로 확대됨에 따라 마스크 사용이 일상생활화 되어가고 있어 마스크를 착용한 상태에서 신원확인을 할 수 있는 필요성이 대두되고 있다.
한국공개특허 제10-2019-0141881호
본 발명은 마스크를 착용한 사람의 경우에도 마스크를 쓴 상태에서 신원확인이 가능하게하기 위하여 음성인식 및 안면의 일부만을 이용하여 신원을 확인할 수 있는 것을 목적으로 한다.
상기 과제를 달성하기 위한 본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템은 신원확인자의 신원확인 데이터 및 기초데이터를 수집하는 데이터수집부; 상기 신원확인 데이터의 특징을 추출하고 특징데이터를 생성하는 특징추출부; 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 학습부; 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 분석부;및 상기 신원확인 결과를 출력하는 출력부;를 포함하는 점에 그 특징이 있다.
여기서, 특히 상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고, 상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함하는 점에 그 특징이 있다.
여기서, 특히 상기 영상 데이터 및 음성 데이터의 노이즈를 제거하는 전처리부;를 더 포함하고, 상기 전처리부는, 상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성하는 점에 그 특징이 있다.
여기서, 특히 상기 특징추출부는, 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성하는 점에 그 특징이 있다.
여기서, 특히 상기 학습부는, 상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성하고, 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고, 상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성하는 점에 그 특징이 있다.
여기서, 특히 상기 분석부는, 상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고, 상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인하는 점에 그 특징이 있다.
또한, 상기 과제를 달성하기 위한 본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법은 신원확인자의 실시간 신원확인 데이터 및 기초데이터를 수집하는 단계; 상기 신원확인 데이터에서 특징을 추출하고 특징데이터를 생성하는 단계; 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계; 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계;및 상기 신원확인 결과를 출력하는 단계;를 포함하는 점에 그 특징이 있다.
여기서, 특히 상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고, 상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함하는 점에 그 특징이 있다.
여기서, 특히 상기 영상 데이터 및 음성 데이터의 노이즈를 제거하는 전처리 단계;를 더 포함하고, 상기 전처리 단계는, 상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성하는 점에 그 특징이 있다.
여기서, 특히 상기 신원확인 데이터에서 특징을 추출하고 특징데이터를 생성하는 단계;는, 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성하는 점에 그 특징이 있다.
여기서, 특히 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계;는, 상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성하고, 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고, 상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성하는 점에 그 특징이 있다.
여기서, 특히 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계;는, 상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고, 상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인하는 점에 그 특징이 있다.
본 발명에 따르면, 마스크를 착용한 사람의 경우에도 마스크를 쓴 상태에서 신원확인이 가능하게하기 위하여 음성인식 및 안면의 일부만을 이용하여 신원을 확인할 수 있다.
도 1은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템을 도식화한 도면이다.
도 2는 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템의 구성을 도시한 도면이다.
도 3은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 도식화한 도면이다.
도 4는 도 3의 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 구체적으로 도식화한 도면이다.
도 5는 도 4의 다른 실시예를 도시한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명을 설명함에 있어 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
이하, 본 발명의 바람직한 실시 예를 첨부한 도면에 의거하여 상세하게 설명하면 다음과 같다.
도 1은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템을 도식화한 도면이다.
도 2는 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템의 구성을 도시한 도면이다.
도 3은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 도식화한 도면이다.
도 4는 도 3의 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 구체적으로 도식화한 도면이다.
도 5는 도 4의 다른 실시예를 도시한 도면이다.
도 1 및 도 2를 참조하면, 본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템(100)은, 데이터수집부(110), 전처리부(120), 특징추출부(130), 학습부(140), 분석부(150) 및 출력부(160)를 포함하여 구성된다.
상기 데이터수집부(110)는 신원확인자의 실시간 안면 및 음성에 대한 신원확인 데이터 및 기초데이터를 수집한다.
상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함할 수 있다.
상기 영상 데이터는 카메라로부터 수집되고, 상기 음성 데이터는 음성인식모듈로부터 수집될 수 있다. 상기 음성인식모듈은 AI스피커일 수 있으며, 그 종류에 제한은 없다.
상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함할 수 있다.
상기 영상 기초데이터는 신원확인자의 노이즈 없는 데이터이며, 카메라로부터 기 수집되어 DB(10)에 저장된다. 여기서 노이즈 없는 영상 데이터란 모자, 이어폰, 마스크, 안경 등의 착용이 없는 상태의 얼굴정면인 안면에 대한 영상 데이터를 의미한다.
상기 음성 기초데이터는 신원확인자의 노이즈 없는 데이터이며, 음성인식모듈로부터 기 수집되어 DB(10)에 저장된다. 여기서 노이즈 없는 음성 데이터란 주의소음, 다른사람의 목소리 등이 포함되지 않은 신원확인자의 목소리에 대한 음성 데이터를 의미한다.
상기 데이터수집부(110)에 수집된 데이터들은 DB(10)에 저장된다.
상기 전처리부(120)는 상기 영상 데이터 및 음성 데이터의 노이즈를 제거한다. 상기 전처리부(120)는 상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성할 수 있다.
예를 들어, 신원확인자가 마스크를 착용하고 있는 경우, 상기 데이터수집부(110)는 카메라를 통해 마스크를 쓴 안면에 대한 데이터인 영상 데이터를 수집한다. 또한, 신원확인자가 다수의 사람들과 함께 있는 경우, 상기 데이터수집부(110)는 다수의 사람들의 목소리가 섞인 신원확인자의 목소리 데이터인 음성 데이터를 수집한다. 상기 전처리부(120)는 마스크를 쓴 안면에 대한 데이터인 영상 데이터에서 노이즈인 마스크를 제거하고 영상 전처리데이터를 생성하고, 다수의 사람들의 목소리가 섞인 신원확인자의 목소리 데이터인 음성 데이터에서 노이즈인 상기 다수의 사람들의 목소리를 제거하고 신원확인자의 목소리데이터인 음성 전처리데이터를 생성할 수 있다.
상기 특징추출부(130)는 상기 신원확인 데이터의 특징을 추출하고 특징데이터를 생성할 수 있다. 보다 구체적으로, 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출할 수 있다. 얼굴 랜드마크 검출은 다수의 공지 기술이 제안된 바 있으며, 일예로 얼굴 랜드마크는 얼굴 랜드 마크 추정(face landmark estimation) 등의 알고리즘을 이용하여 검출할 수 있으며, 얼굴 특징 벡터의 비교를 위한 인공신경망과 별도의 DNN(Deep Neural Network)을 통해 검출 모델을 생성할 수 있다. 다만, 본 실시예에서는 특정 기술로 제한하지는 않는다.
상기 특징추출부(130)는 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하고 영상 특징데이터를 생성할 수 있다.
상기 특징추출부(130)는 상기 음성 전처리데이터에서 특징을 추출하고 음성 특징데이터를 생성할 수 있다. 상기 음성 전처리데이터에서 특징을 추출하는 것은 예를 들면, 신원확인자의 목소리톤, 발언속도, 발음특징 등이 될 수 있으며 그 내용에 제한은 없다.
본 발명 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템(100)은 데이터분할부(미도시)를 더 포함할 수 있다.
상기 데이터분할부는 상기 영상 데이터의 일부를 추출하거나, 상기 영상 데이터를 분할하여 영상 일부 데이터를 생성한다. 상기 영상 일부 데이터는 추출 및 분할되어 DB(10)에 저장된다. 상기 영상 데이터의 일부는 눈, 코, 입, 눈썹 등이 될 수 있으며 이에 한정되지 않고 안면을 특정비율로 분할한 어느 일부분일 수 도 있으며 그 의미에 제한은 없다. 이어서, 상기 전처리부(120)는 상기 영상 일부 데이터의 노이즈를 제거하고 영상 일부 전처리데이터를 생성할 수 있다. 이어서, 상기 특징추출부(130)는 상기 영상 일부 전처리데이터의 특징을 랜드마크를 이용하여 추출하고 영상 일부 특징데이터를 생성할 수 있다. 여기서, 상기 데이터분할부는 상기 영상 데이터의 일부를 다수 개 추출하여 제1 영상 일부 데이터, 제2 영상 일부 데이터를 생성할 수 있으며, 상기 제1 영상 일부 데이터, 제2 영상 일부 데이터는 전처리부(120)를 통해 제1 영상 일부 전처리데이터, 제2 영상 일부 전처리데이터를 생성하고, 이어서, 상기 제1 영상 일부 전처리데이터, 제2 영상 일부 전처리데이터는 특징추출부(130)를 통해 제1 영상 일부 특징데이터, 제2 영상 일부 특징데이터를 생성할 수 있다. 여기서, 다수 개 추출은 제1 및 제2에 한정되지 않는다.
상기 학습부(140)는 상기 기초데이터로부터 예상데이터를 학습하고 생성한다. 상기 학습부(140)는 상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성할 수 있다.
또한, 상기 학습부(140)는 상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성할 수 있다.
예를들어, 노이즈 없는 영상 데이터란 모자, 이어폰, 마스크, 안경 등의 착용이 없는 상태의 얼굴정면인 안면에 대한 영상 데이터인 영상 기초데이터에서 모자, 이어폰, 마스크, 안경 등을 착용한 영상 예상데이터를 예상하여 학습하고, 상기 영상 예상데이터에서 다시 노이즈를 제거한 영상 예상 전처리데이터를 예상하고 학습하여 생성할 수 있다. 이어서, 상기 학습부(140)는 상기 영상 예상 전처리데이터의 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성할 수 있다. 상기 특징 추출은 랜드마크를 이용하여 특징을 추출할 수 있다.
또한, 상기 학습부(140)는 상기 영상 기초데이터에서 영상 데이터의 일부를 예상하고 학습하여 영상 일부 예상데이터를 생성할 수 있다. 상기 영상 데이터의 일부는 눈, 코, 입, 눈썹 등이 될 수 있으며 이에 한정되지 않고 안면을 특정비율로 분할한 어느 일부분일 수 도 있으며 그 의미에 제한은 없다. 이어서, 상기 영상 일부 예상데이터에서 노이즈를 예상하고 학습하여 영상 일부 예상 전처리데이터를 생성할 수 있다. 이어서, 상기 영상 일부 예상 전처리데이터의 특징을 예상하고 학습하여 영상 일부 예상 특징데이터를 생성할 수 있다.
상기 학습부(140)는 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성할 수 있다. 예를들어, 노이즈 없는 음성 데이터인 주의소음, 다른사람의 목소리 등이 포함되지 않은 신원확인자의 목소리에 대한 음성 데이터인 음성 기초데이터로부터 노이즈인 주의소음, 다른사람 목소리 등이 포함된 예상 음성 데이터를 예상하고 학습하고, 상기 예상 음성 데이터에서 다시 노이즈를 제거한 음성 예상 전처리데이터를 예상하고 학습하여 생성할 수 있다. 이어서, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성할 수 있다. 여기서 상기 특징은 신원확인자의 목소리톤, 발언속도, 발음특징 등이 될 수 있으며 그 내용에 제한은 없다.
상기 분석부(150)는 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인한다. 보다 구체적으로 상기 분석부(150)는 상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고, 상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인할 수 있다.
또한, 상기 분석부(150)는 영상 일부데이터가 생성된 경우, 영상 일부 특징데이터와 영상 일부 예상 특징데이터를 비교분석하여 영상 일부 결과데이터를 생성하고, 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 일부 결과데이터와 음성 결과데이터를 병합하여 비교분석하고 신원을 확인할 수 있다.
상기 출력부(160)는 상기 신원확인 결과를 출력한다. 상기 출력부(160)는 별도의 디스플레이를 가진 PC, 모바일과 같은 장치일 수 있으며 그 종류에 제한은 없다.
상기 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템(100)은 상기 신원확인 결과 등록된 신원을 찾을 수 없는 경우 경고 알람을 울리는 알람부를 더 포함할 수 있다.
도 3은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 도식화한 도면이다.
도 4는 도 3의 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 구체적으로 도식화한 도면이다.
도 5는 도 4의 다른 실시예를 도시한 도면이다.
음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법은 상기 설명한 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템에 의해 이루어지며, 모든 구체적인 내용은 상기 설명한 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템의 내용을 참조한다.
도 3 내지 도 5를 참조하면, 본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법은, 신원확인자의 실시간 신원확인데이터 및 기초데이터를 수집하는 단계(S11,S21)가 수행된다. 상기 신원확인데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고, 상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함한다.
이어서, 상기 영상 데이터 및 음성 데이터의 노이즈를 제거하는 전처리 단계(S13)가 수행된다. 상기 전처리 단계(S13)는 상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성할 수 있다.
이어서, 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계(S15)가 수행된다. 상기 신원확인데이터에서 특징을 추출하고 특징데이터를 생성하는 단계(S15)는 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성할 수 있다.
별도로, 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계(S23)가 수행된다. 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계;는 상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성하고, 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고, 상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성할 수 있다.
이어서, 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계(S31)가 수행된다. 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계(S31)는 상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고, 상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인할 수 있다.
이어서, 신원확인 결과를 출력하는 단계(S33)가 수행된다.
이어서, 신원확인 결과 등록된 신원을 찾을 수 없는 경우 경고 알람을 울리는 단계를 더 포함할 수 있다.
상기 S11 단계 이후, 영상 데이터의 일부를 추출하거나 영상 데이터를 분할하는 데이터분할단계(S12)가 수행될 수 있다. S12 단계가 수행되는 경우, S12단계에서 영상 일부 데이터가 생성된다. 이어서, S13단계에서 상기 영상 일부 데이터를 전처리하고 영상 일부 전처리데이터를 생성힌다. 이어서, S15 단계에서 상기 영상 일부 전처리데이터의 특징을 추출하여 영상 일부 특징데이터를 생성한다.
상기 S23단계에서, 영상 기초데이터로부터 상기 영상 기초데이터에서 영상 데이터의 일부를 예상하고 학습하여 영상 일부 예상데이터를 생성할 수 있다. 상기 영상 데이터의 일부는 눈, 코, 입, 눈썹 등이 될 수 있으며 이에 한정되지 않고 안면을 특정비율로 분할한 어느 일부분일 수 도 있으며 그 의미에 제한은 없다. 이어서, 상기 영상 일부 예상데이터에서 노이즈를 예상하고 학습하여 영상 일부 예상 전처리데이터를 생성할 수 있다. 이어서, 상기 영상 일부 예상 전처리데이터의 특징을 예상하고 학습하여 영상 일부 예상 특징데이터를 생성할 수 있다. 이 경우, S31 단계에서는 영상 일부 특징데이터와 영상 일부 예상 특징데이터를 비교분석하여 영상 일부 결과데이터를 생성하고, 상기 영상 일부 결과데이터와 음성 결과데이터를 병합하여 비교분석하고 신원확인 결과를 출력한다.
본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법은, 상황의 제약으로 인하여 부분적인 신체데이터 및 음성 데이터로 신원확인을 할 수 있다. 또한, 모자, 안경, 마스크, 이어폰과 같은 노이즈가 없은 기초데이터를 기 등록하여 기초데이터로부터 노이즈를 학습하고, 데이터의 일부분을 특징화하고, 예상하는 것을 특징으로 하며, 노이즈가 있는 데이터를 별로로 수집하지 않고도 신원확인을 할 수 있는 것을 특징으로 한다. 또한, 안면 일부 및 음성 데이터를 모두 병합하여 신원을 비교함으로써 신원확인 결과의 질을 높을 수 있다.
즉, 본 발명에 따르면, 마스크를 쓴 상태에서 마스크를 벗지 않고도 신원확인을 할 수 있다. 또한, 같은 신원확인자에 대하여 마스크를 쓴 상태에서 신원확인시, 마스크를 쓴 데이터 없이도, 맨 얼굴에 대한 데이터로부터 마스크를 쓴 경우를 학습하여 비교데이터로 씀으로써 신원확인의 효율을 높일 수 있다.
본 발명의 권리범위는 상술한 실시 예에 한정되는 것이 아니라 첨부된 특허청구범위 내에서 다양한 형태의 실시 예로 구현될 수 있다. 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자라면 누구든지 변형 가능한 다양한 범위까지 본 발명의 청구범위 기재의 범위 내에 있는 것으로 본다.
10 DB 100 신원확인 시스템
110 데이터수집부 120 전처리부
130 특징추출부 140 학습부
150 분석부 160 출력부

Claims (12)

  1. 신원확인자의 신원확인 데이터 및 기초데이터를 수집하는 데이터수집부;
    상기 신원확인 데이터의 특징을 추출하고 특징데이터를 생성하는 특징추출부;
    상기 기초데이터로부터 예상데이터를 학습하고 생성하는 학습부;
    상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 분석부;및
    상기 신원확인 결과를 출력하는 출력부;를 포함하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템.
  2. 제1항에 있어서,
    상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고,
    상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템.
  3. 제2항에 있어서,
    상기 영상 데이터 및 음성 데이터의 노이즈를 제거하는 전처리부;를 더 포함하고,
    상기 전처리부는,
    상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템.
  4. 제3항에 있어서,
    상기 특징추출부는,
    상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템.
  5. 제4항에 있어서,
    상기 학습부는,
    상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성하고, 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고,
    상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템.
  6. 제5항에 있어서,
    상기 분석부는,
    상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고,
    상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고,
    상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템.
  7. 신원확인자의 실시간 신원확인 데이터 및 기초데이터를 수집하는 단계;
    상기 신원확인 데이터에서 특징을 추출하고 특징데이터를 생성하는 단계;
    상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계;
    상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계;및
    상기 신원확인 결과를 출력하는 단계;를 포함하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법.
  8. 제7항에 있어서,
    상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고,
    상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법.
  9. 제8항에 있어서,
    상기 영상 데이터 및 음성 데이터의 노이즈를 제거하는 전처리 단계;를 더 포함하고,
    상기 전처리 단계는,
    상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법.
  10. 제9항에 있어서,
    상기 신원확인 데이터에서 특징을 추출하고 특징데이터를 생성하는 단계;는,
    상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법.
  11. 제10항에 있어서,
    상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계;는,
    상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성하고, 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고,
    상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법.
  12. 제11항에 있어서,
    상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계;는,
    상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고,
    상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고,
    상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인하는,
    음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법.
KR1020210055204A 2021-04-28 2021-04-28 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법 KR102535244B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210055204A KR102535244B1 (ko) 2021-04-28 2021-04-28 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210055204A KR102535244B1 (ko) 2021-04-28 2021-04-28 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20220147998A true KR20220147998A (ko) 2022-11-04
KR102535244B1 KR102535244B1 (ko) 2023-05-26

Family

ID=84101477

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210055204A KR102535244B1 (ko) 2021-04-28 2021-04-28 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102535244B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101795264B1 (ko) * 2016-05-31 2017-12-01 현대자동차주식회사 얼굴 랜드마크 검출 장치 및 그 검증 방법
KR102009106B1 (ko) * 2018-01-11 2019-08-08 고려대학교 산학협력단 사용자 인증 방법
KR20190141881A (ko) 2018-06-15 2019-12-26 김양현 스마트 보안 시스템
KR20200085696A (ko) * 2018-01-02 2020-07-15 주식회사 제네시스랩 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
KR20210025945A (ko) * 2019-08-28 2021-03-10 주식회사 아이즈솔 지능형 영상 분석 기술에 기반한 통합 교육 관리 시스템 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101795264B1 (ko) * 2016-05-31 2017-12-01 현대자동차주식회사 얼굴 랜드마크 검출 장치 및 그 검증 방법
KR20200085696A (ko) * 2018-01-02 2020-07-15 주식회사 제네시스랩 사람의 감성 상태를 결정하기 위하여 영상을 처리하는 감성인식 방법
KR102009106B1 (ko) * 2018-01-11 2019-08-08 고려대학교 산학협력단 사용자 인증 방법
KR20190141881A (ko) 2018-06-15 2019-12-26 김양현 스마트 보안 시스템
KR20210025945A (ko) * 2019-08-28 2021-03-10 주식회사 아이즈솔 지능형 영상 분석 기술에 기반한 통합 교육 관리 시스템 및 그 방법

Also Published As

Publication number Publication date
KR102535244B1 (ko) 2023-05-26

Similar Documents

Publication Publication Date Title
CN104361276B (zh) 一种多模态生物特征身份认证方法及系统
US10275672B2 (en) Method and apparatus for authenticating liveness face, and computer program product thereof
Dinkel et al. Investigating raw wave deep neural networks for end-to-end speaker spoofing detection
McCool et al. Bi-modal person recognition on a mobile phone: using mobile phone data
Wen et al. Face reconstruction from voice using generative adversarial networks
Aleksic et al. Audio-visual biometrics
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
Bigun et al. Multimodal biometric authentication using quality signals in mobile communications
Ito et al. Smile and laughter recognition using speech processing and face recognition from conversation video
KR20010039771A (ko) 시청각적 발성자 인식 및 발성 검증 방법 및 장치
US20170032179A1 (en) Identifying non-occluded faces by learning from partially occluded faces
KR20070075050A (ko) 분류기 통합을 위한 스코어 합성 방법 및 장치
JP2018169494A (ja) 発話意図推定装置および発話意図推定方法
US11715330B2 (en) Liveness detection in an interactive video session
Dalila et al. Feature level fusion of face and voice biometrics systems using artificial neural network for personal recognition
KR102535244B1 (ko) 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법
Zakeri et al. WhisperNet: Deep siamese network for emotion and speech tempo invariant visual-only lip-based biometric
Alharbi et al. Face-voice based multimodal biometric authentication system via FaceNet and GMM
Saleema et al. Voice biometrics: the promising future of authentication in the internet of things
KR20220147993A (ko) 얼굴정면 및 측면 랜드마크를 이용한 신원확인 시스템 및 그 방법
García-Navas et al. A new system to detect coronavirus social distance violation
Beritelli et al. Performance evaluation of multimodal biometric systems based on mathematical models and probabilistic neural networks
Yu et al. Biometric recognition by using audio and visual feature fusion
Abdulrahman et al. A supervised learning classifier for replayed voice attack detection
Bendris et al. Introduction of quality measures in audio-visual identity verification

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant