KR102535244B1 - identification system and method using landmark of part of the face and voice recognition - Google Patents

identification system and method using landmark of part of the face and voice recognition Download PDF

Info

Publication number
KR102535244B1
KR102535244B1 KR1020210055204A KR20210055204A KR102535244B1 KR 102535244 B1 KR102535244 B1 KR 102535244B1 KR 1020210055204 A KR1020210055204 A KR 1020210055204A KR 20210055204 A KR20210055204 A KR 20210055204A KR 102535244 B1 KR102535244 B1 KR 102535244B1
Authority
KR
South Korea
Prior art keywords
data
audio
identification
image
feature
Prior art date
Application number
KR1020210055204A
Other languages
Korean (ko)
Other versions
KR20220147998A (en
Inventor
김용태
홍윤택
Original Assignee
주식회사 와이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이티 filed Critical 주식회사 와이티
Priority to KR1020210055204A priority Critical patent/KR102535244B1/en
Publication of KR20220147998A publication Critical patent/KR20220147998A/en
Application granted granted Critical
Publication of KR102535244B1 publication Critical patent/KR102535244B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/50Maintenance of biometric data or enrolment thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Abstract

본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템은 신원확인자의 신원확인 데이터 및 기초데이터를 수집하는 데이터수집부; 상기 신원확인 데이터의 특징을 추출하고 특징데이터를 생성하는 특징추출부; 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 학습부; 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 분석부;및 상기 신원확인 결과를 출력하는 출력부;를 포함하는 점에 그 특징이 있다.
본 발명에 따르면, 마스크를 착용한 사람의 경우에도 마스크를 쓴 상태에서 신원확인이 가능하게하기 위하여 음성인식 및 안면의 일부만을 이용하여 신원을 확인할 수 있다.
An identification system using voice recognition and facial landmarks according to the present invention includes a data collection unit for collecting identification data and basic data of an identification person; a feature extraction unit extracting features of the identification data and generating feature data; a learning unit learning and generating expected data from the basic data; It is characterized in that it includes an analysis unit that compares and analyzes the characteristic data and expected data to confirm an identity; and an output unit that outputs the identity confirmation result.
According to the present invention, even in the case of a person wearing a mask, the identity can be confirmed using voice recognition and only a part of the face in order to enable identification while wearing the mask.

Figure 112021049864019-pat00001
Figure 112021049864019-pat00001

Description

음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법{identification system and method using landmark of part of the face and voice recognition}Identification system and method using landmark of part of the face and voice recognition}

본 발명은 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법에 관한 것으로, 특히 마스크를 착용한 사람의 경우에도 마스크를 쓴 상태에서 신원확인이 가능하게하기 위하여 음성인식 및 안면의 일부만을 이용하여 신원을 확인할 수 있는 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법에 관한 것이다.The present invention relates to an identification system and method using voice recognition and partial facial landmarks, and in particular, in the case of a person wearing a mask, in order to enable identification while wearing a mask, only voice recognition and a part of the face are used. The present invention relates to an identification system and method using voice recognition and facial landmarks capable of verifying identity by using the same.

데이터 보안 기술 중, 특히 사용자 자신이 통제권을 갖는 다양한 생체인식 기술을 기반으로 하는 인증 솔루션에 대한 관심이 증대하고 있으며, 공지된 생체인식 기술로는 지문, 홍채, 안면인식 등이 있다.Among data security technologies, interest in authentication solutions based on various biometric technologies in which users themselves have control is increasing, and known biometric technologies include fingerprint, iris, and facial recognition.

또한, 신원 확인 방법으로 음성인식 기술이 대두되고 있다. 음성 인식 기술은 이미 스마트폰, 자동차, 콜센터 등 현재 우리 생활 의 많은 부분에 녹아들어서 서비스화되고 있다.In addition, voice recognition technology is emerging as an identification method. Voice recognition technology has already been integrated into many parts of our lives, such as smartphones, automobiles, and call centers, to become a service.

이중, 안면인식(Face Recognition)기술은 얼굴의 특징점을 추출하여 저장된 데이터베이스 내 자료와 비교하여 신원을 확인하는 기술을 가리키는 것으로, 사용자의 피부가 인증 장치와 직접적으로 접촉하지 않기 때문에 기존의 생체인식에 비해 위생적이고 편의성이 높아 다양한 분야에서 활용성이 기대된다.Among them, Face Recognition technology refers to a technology that extracts facial feature points and compares them with data in a stored database to confirm identity. It is hygienic and convenient, so it is expected to be used in various fields.

최근 영상 인식 기술의 발전으로 인해, 신원확인을 위한 수단으로서 얼굴 인식을 이용하는 얼굴 인식 기반 신원확인 기술이 활발히 개발되고 있다. 얼굴 인식의 경우 사용자가 신원확인을 위한 얼굴 인식 기기에 얼굴을 위치시키면 신원확인 동작이 수행되므로, 사용자 편의성이 매우 뛰어난 장점이 있다.Due to the recent development of image recognition technology, face recognition-based identification technology using face recognition as a means for identification is being actively developed. In the case of face recognition, when a user places a face on a face recognition device for identification, an identification operation is performed, so user convenience is very excellent.

그러나, 얼굴 인식 기반 신원확인 기술의 경우, 영상 내에 측면 얼굴만 포함되어 있거나 모자/안경/마스크 등으로 인하여 얼굴 영상(특히, 얼굴 정면부)에 일부 또는 전부의 가림이 존재하는 경우에 인식률이 저하되는 단점이 존재한다.However, in the case of face recognition-based identification technology, the recognition rate deteriorates when only the side face is included in the image or when the face image (in particular, the front part of the face) is partially or entirely covered by a hat/glasses/mask. There are downsides to being

그러나, 현재기술 수준에서 안면인식 기술은 지문인식과 같은 타 생체인식 기술보다 오인식률(False Acceptance Rate)이 높은 편이며, 이에 신원 확인 수단이 아닌 보조수단으로 활용되어 왔다. 안면인식 기술의 오인식률을 해결하기 위해서는, 딥 러닝과 같은 인공지능(AI)기술을 이용하여 정확도를 높일 수 있는 지속적인 연구가 필요하다고 할 수 있다.However, at the current technology level, facial recognition technology has a higher false acceptance rate than other biometric technologies such as fingerprint recognition, and has therefore been used as an auxiliary method rather than an identification method. In order to solve the misrecognition rate of facial recognition technology, it can be said that continuous research to improve accuracy using artificial intelligence (AI) technology such as deep learning is necessary.

또한, 코로나19와 같은 상황이 전세계적으로 확대됨에 따라 마스크 사용이 일상생활화 되어가고 있어 마스크를 착용한 상태에서 신원확인을 할 수 있는 필요성이 대두되고 있다.In addition, as the situation such as Corona 19 expands globally, the use of masks is becoming a daily routine, and the need to verify identity while wearing a mask is emerging.

한국공개특허 제10-2019-0141881호Korean Patent Publication No. 10-2019-0141881

본 발명은 마스크를 착용한 사람의 경우에도 마스크를 쓴 상태에서 신원확인이 가능하게하기 위하여 음성인식 및 안면의 일부만을 이용하여 신원을 확인할 수 있는 것을 목적으로 한다.An object of the present invention is to enable identification of a person wearing a mask using voice recognition and only a part of the face in order to enable identification while wearing a mask.

상기 과제를 달성하기 위한 본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템은 신원확인자의 신원확인 데이터 및 기초데이터를 수집하는 데이터수집부; 상기 신원확인 데이터의 특징을 추출하고 특징데이터를 생성하는 특징추출부; 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 학습부; 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 분석부;및 상기 신원확인 결과를 출력하는 출력부;를 포함하는 점에 그 특징이 있다.An identification system using voice recognition and some facial landmarks according to the present invention for achieving the above object includes a data collection unit for collecting identification data and basic data of an identification person; a feature extraction unit extracting features of the identification data and generating feature data; a learning unit learning and generating expected data from the basic data; It is characterized in that it includes an analysis unit that compares and analyzes the characteristic data and expected data to confirm an identity; and an output unit that outputs the identity confirmation result.

여기서, 특히 상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고, 상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함하는 점에 그 특징이 있다.Here, in particular, the identification data includes video data, which is data about the face of an identification verifier, and audio data, which is data about voice, and the basic data is basic video data, which is data about the face of an identification verifier, and data about voice. Its feature is that it includes human voice basic data.

여기서, 특히 상기 영상 데이터 및 음성 데이터의 노이즈를 제거하는 전처리부;를 더 포함하고, 상기 전처리부는, 상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성하는 점에 그 특징이 있다.In particular, a pre-processing unit for removing noise of the video data and audio data; wherein the pre-processing unit removes noise from the video data and generates image pre-processing data, which is pre-processed video data, and Its feature is that it removes noise and generates voice preprocessing data that is preprocessed voice data.

여기서, 특히 상기 특징추출부는, 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성하는 점에 그 특징이 있다.Here, in particular, the feature extraction unit is characterized in that it extracts features using landmarks from the image preprocessing data to generate image feature data, and extracts features from the audio preprocessing data to generate audio feature data. .

여기서, 특히 상기 학습부는, 상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성하고, 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고, 상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성하는 점에 그 특징이 있다.Here, in particular, the learning unit predicts and learns noise of the video data from the video basic data to generate image prediction preprocessing data, and predicts and learns noise of the audio data from the audio basic data to generate audio prediction preprocessing data. generating, predicting and learning features using landmarks in the image prediction preprocessing data to generate image prediction feature data, and generating voice prediction feature data by predicting and learning features from the audio prediction preprocessing data. there is

여기서, 특히 상기 분석부는, 상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고, 상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인하는 점에 그 특징이 있다.Here, in particular, the analysis unit compares and analyzes the video feature data and expected image feature data to generate video result data, compares and analyzes the audio feature data and audio expected feature data to generate audio result data, and generates the video result data. Its feature is that identification is confirmed by merging data and voice result data.

또한, 상기 과제를 달성하기 위한 본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법은 신원확인자의 실시간 신원확인 데이터 및 기초데이터를 수집하는 단계; 상기 신원확인 데이터에서 특징을 추출하고 특징데이터를 생성하는 단계; 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계; 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계;및 상기 신원확인 결과를 출력하는 단계;를 포함하는 점에 그 특징이 있다.In addition, an identification method using voice recognition and some facial landmarks according to the present invention for achieving the above object includes collecting real-time identification data and basic data of an identification person; extracting features from the identification data and generating feature data; learning and generating expected data from the basic data; It is characterized in that it includes the step of confirming the identity by comparing and analyzing the characteristic data and the expected data; and outputting the result of the identification.

여기서, 특히 상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고, 상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함하는 점에 그 특징이 있다.Here, in particular, the identification data includes video data, which is data about the face of an identification verifier, and audio data, which is data about voice, and the basic data is basic video data, which is data about the face of an identification verifier, and data about voice. Its feature is that it includes human voice basic data.

여기서, 특히 상기 영상 데이터 및 음성 데이터의 노이즈를 제거하는 전처리 단계;를 더 포함하고, 상기 전처리 단계는, 상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성하는 점에 그 특징이 있다.In particular, a preprocessing step of removing noise from the video data and audio data; wherein the preprocessing step removes noise from the video data, generates image preprocessing data that is preprocessed image data, and removes noise from the audio data. Its feature is that it removes noise from and generates preprocessed voice data, which is preprocessed voice data.

여기서, 특히 상기 신원확인 데이터에서 특징을 추출하고 특징데이터를 생성하는 단계;는, 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성하는 점에 그 특징이 있다.Here, in particular, the step of extracting features from the identification data and generating feature data; extracts features using landmarks from the image preprocessing data to generate image feature data, and extracts features from the audio preprocessing data. It is characterized in that it generates voice feature data by doing so.

여기서, 특히 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계;는, 상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성하고, 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고, 상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성하는 점에 그 특징이 있다.In particular, the step of learning and generating prediction data from the basic data; predicting and learning noise of the video data from the video basic data to generate image prediction preprocessing data, and generating the audio data from the audio basic data. Noise is predicted and learned to generate voice prediction preprocessing data, features are predicted and learned using landmarks from the image prediction preprocessed data to generate image prediction feature data, and features are predicted and learned from the voice prediction preprocessed data Its feature is that voice prediction feature data is generated.

여기서, 특히 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계;는, 상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고, 상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인하는 점에 그 특징이 있다.Here, in particular, the step of comparing and analyzing the feature data and expected data to confirm the identity; compares and analyzes the image feature data and image expected feature data to generate image result data, and the audio feature data and audio expected feature data. It is characterized in that voice result data is generated by comparing and analyzing, and identification is confirmed by merging the video result data and audio result data.

본 발명에 따르면, 마스크를 착용한 사람의 경우에도 마스크를 쓴 상태에서 신원확인이 가능하게하기 위하여 음성인식 및 안면의 일부만을 이용하여 신원을 확인할 수 있다.According to the present invention, even in the case of a person wearing a mask, the identity can be confirmed using voice recognition and only a part of the face in order to enable identification while wearing the mask.

도 1은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템을 도식화한 도면이다.
도 2는 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템의 구성을 도시한 도면이다.
도 3은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 도식화한 도면이다.
도 4는 도 3의 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 구체적으로 도식화한 도면이다.
도 5는 도 4의 다른 실시예를 도시한 도면이다.
1 is a diagram illustrating an identification system using voice recognition and facial landmarks, which is an embodiment of the present invention.
2 is a diagram showing the configuration of an identification system using voice recognition and facial landmarks, which is an embodiment of the present invention.
3 is a diagram illustrating an identification method using voice recognition and facial landmarks, which is an embodiment of the present invention.
FIG. 4 is a detailed diagram illustrating the identification method of FIG. 3 using voice recognition and facial landmarks.
FIG. 5 is a view showing another embodiment of FIG. 4 .

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Since the present invention can make various changes and have various embodiments, specific embodiments are illustrated in the drawings and will be described in detail through detailed description. However, this is not intended to limit the present invention to specific embodiments, and should be understood to include all modifications, equivalents, or substitutes included in the spirit and technical scope of the present invention.

본 발명을 설명함에 있어 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.In describing the present invention, if it is determined that a detailed description of a related known technology may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted. In addition, numbers (eg, first, second, etc.) used in the description process of this specification are only identifiers for distinguishing one component from another component.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다. In addition, in this specification, when one component is referred to as “connected” or “connected” to another component, the one component may be directly connected or directly connected to the other component, but in particular Unless otherwise described, it should be understood that they may be connected or connected via another component in the middle.

이하, 본 발명의 바람직한 실시 예를 첨부한 도면에 의거하여 상세하게 설명하면 다음과 같다. Hereinafter, a preferred embodiment of the present invention will be described in detail based on the accompanying drawings.

도 1은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템을 도식화한 도면이다.1 is a diagram illustrating an identification system using voice recognition and facial landmarks, which is an embodiment of the present invention.

도 2는 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템의 구성을 도시한 도면이다.2 is a diagram showing the configuration of an identification system using voice recognition and facial landmarks, which is an embodiment of the present invention.

도 3은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 도식화한 도면이다.3 is a diagram illustrating an identification method using voice recognition and facial landmarks, which is an embodiment of the present invention.

도 4는 도 3의 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 구체적으로 도식화한 도면이다.FIG. 4 is a detailed diagram illustrating the identification method of FIG. 3 using voice recognition and facial landmarks.

도 5는 도 4의 다른 실시예를 도시한 도면이다.FIG. 5 is a view showing another embodiment of FIG. 4 .

도 1 및 도 2를 참조하면, 본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템(100)은, 데이터수집부(110), 전처리부(120), 특징추출부(130), 학습부(140), 분석부(150) 및 출력부(160)를 포함하여 구성된다.1 and 2, the identification system 100 using voice recognition and facial landmarks according to the present invention includes a data collection unit 110, a pre-processing unit 120, a feature extraction unit 130, It is configured to include a learning unit 140, an analysis unit 150 and an output unit 160.

상기 데이터수집부(110)는 신원확인자의 실시간 안면 및 음성에 대한 신원확인 데이터 및 기초데이터를 수집한다.The data collection unit 110 collects identification data and basic data on the real-time face and voice of the identification verifier.

상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함할 수 있다.The identification data may include video data, which is data about the face of an identification verifier, and audio data, which is data about voice.

상기 영상 데이터는 카메라로부터 수집되고, 상기 음성 데이터는 음성인식모듈로부터 수집될 수 있다. 상기 음성인식모듈은 AI스피커일 수 있으며, 그 종류에 제한은 없다.The image data may be collected from a camera, and the audio data may be collected from a voice recognition module. The voice recognition module may be an AI speaker, and the type is not limited.

상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함할 수 있다.The basic data may include basic video data, which is data about the face of the ID checker, and basic audio data, which is data about voice.

상기 영상 기초데이터는 신원확인자의 노이즈 없는 데이터이며, 카메라로부터 기 수집되어 DB(10)에 저장된다. 여기서 노이즈 없는 영상 데이터란 모자, 이어폰, 마스크, 안경 등의 착용이 없는 상태의 얼굴정면인 안면에 대한 영상 데이터를 의미한다. The basic image data is noise-free data of the identity verifier, and is pre-collected from the camera and stored in the DB 10. Here, the noise-free image data refers to image data of the face, which is the front of the face in a state in which a hat, earphone, mask, glasses, or the like is not worn.

상기 음성 기초데이터는 신원확인자의 노이즈 없는 데이터이며, 음성인식모듈로부터 기 수집되어 DB(10)에 저장된다. 여기서 노이즈 없는 음성 데이터란 주의소음, 다른사람의 목소리 등이 포함되지 않은 신원확인자의 목소리에 대한 음성 데이터를 의미한다.The basic voice data is noise-free data of the identity verifier, and is pre-collected from the voice recognition module and stored in the DB 10. Here, the noise-free voice data refers to voice data for the voice of an identification verifier that does not include attentional noise and other people's voices.

상기 데이터수집부(110)에 수집된 데이터들은 DB(10)에 저장된다.The data collected by the data collection unit 110 is stored in the DB 10.

상기 전처리부(120)는 상기 영상 데이터 및 음성 데이터의 노이즈를 제거한다. 상기 전처리부(120)는 상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성할 수 있다.The pre-processing unit 120 removes noise from the video data and audio data. The pre-processor 120 may remove noise from the image data and generate image pre-processed data, which is pre-processed image data, and remove noise from the audio data and generate audio pre-processed data, which is pre-processed audio data.

예를 들어, 신원확인자가 마스크를 착용하고 있는 경우, 상기 데이터수집부(110)는 카메라를 통해 마스크를 쓴 안면에 대한 데이터인 영상 데이터를 수집한다. 또한, 신원확인자가 다수의 사람들과 함께 있는 경우, 상기 데이터수집부(110)는 다수의 사람들의 목소리가 섞인 신원확인자의 목소리 데이터인 음성 데이터를 수집한다. 상기 전처리부(120)는 마스크를 쓴 안면에 대한 데이터인 영상 데이터에서 노이즈인 마스크를 제거하고 영상 전처리데이터를 생성하고, 다수의 사람들의 목소리가 섞인 신원확인자의 목소리 데이터인 음성 데이터에서 노이즈인 상기 다수의 사람들의 목소리를 제거하고 신원확인자의 목소리데이터인 음성 전처리데이터를 생성할 수 있다.For example, when an identification confirmer is wearing a mask, the data collection unit 110 collects image data, which is data about the face wearing the mask, through a camera. In addition, when the identity verifier is with a plurality of people, the data collection unit 110 collects voice data, which is the voice data of the identity verifier mixed with the voices of many people. The pre-processing unit 120 removes a mask, which is noise, from image data, which is data about a face wearing a mask, generates image pre-processing data, and removes a mask, which is noise, from voice data, which is voice data of an identity verifier mixed with voices of many people. It is possible to remove the voices of a large number of people and generate voice pre-processing data that is the voice data of the identity verifier.

상기 특징추출부(130)는 상기 신원확인 데이터의 특징을 추출하고 특징데이터를 생성할 수 있다. 보다 구체적으로, 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출할 수 있다. 얼굴 랜드마크 검출은 다수의 공지 기술이 제안된 바 있으며, 일예로 얼굴 랜드마크는 얼굴 랜드 마크 추정(face landmark estimation) 등의 알고리즘을 이용하여 검출할 수 있으며, 얼굴 특징 벡터의 비교를 위한 인공신경망과 별도의 DNN(Deep Neural Network)을 통해 검출 모델을 생성할 수 있다. 다만, 본 실시예에서는 특정 기술로 제한하지는 않는다. The feature extraction unit 130 may extract features of the identification data and generate feature data. More specifically, features may be extracted using landmarks from the image preprocessing data. A number of known technologies have been proposed for face landmark detection. For example, face landmarks can be detected using an algorithm such as face landmark estimation, and an artificial neural network for comparison of face feature vectors. A detection model may be generated through a separate deep neural network (DNN). However, in this embodiment, it is not limited to a specific technology.

상기 특징추출부(130)는 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하고 영상 특징데이터를 생성할 수 있다. The feature extraction unit 130 may extract features using landmarks from the image preprocessing data and generate image feature data.

상기 특징추출부(130)는 상기 음성 전처리데이터에서 특징을 추출하고 음성 특징데이터를 생성할 수 있다. 상기 음성 전처리데이터에서 특징을 추출하는 것은 예를 들면, 신원확인자의 목소리톤, 발언속도, 발음특징 등이 될 수 있으며 그 내용에 제한은 없다.The feature extraction unit 130 may extract features from the voice preprocessing data and generate voice feature data. Features extracted from the voice pre-processing data may be, for example, voice tone, speaking speed, and pronunciation characteristics of the identity verifier, and the contents are not limited.

본 발명 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템(100)은 데이터분할부(미도시)를 더 포함할 수 있다. The identification system 100 using voice recognition and facial landmarks according to the present invention may further include a data division unit (not shown).

상기 데이터분할부는 상기 영상 데이터의 일부를 추출하거나, 상기 영상 데이터를 분할하여 영상 일부 데이터를 생성한다. 상기 영상 일부 데이터는 추출 및 분할되어 DB(10)에 저장된다. 상기 영상 데이터의 일부는 눈, 코, 입, 눈썹 등이 될 수 있으며 이에 한정되지 않고 안면을 특정비율로 분할한 어느 일부분일 수 도 있으며 그 의미에 제한은 없다. 이어서, 상기 전처리부(120)는 상기 영상 일부 데이터의 노이즈를 제거하고 영상 일부 전처리데이터를 생성할 수 있다. 이어서, 상기 특징추출부(130)는 상기 영상 일부 전처리데이터의 특징을 랜드마크를 이용하여 추출하고 영상 일부 특징데이터를 생성할 수 있다. 여기서, 상기 데이터분할부는 상기 영상 데이터의 일부를 다수 개 추출하여 제1 영상 일부 데이터, 제2 영상 일부 데이터를 생성할 수 있으며, 상기 제1 영상 일부 데이터, 제2 영상 일부 데이터는 전처리부(120)를 통해 제1 영상 일부 전처리데이터, 제2 영상 일부 전처리데이터를 생성하고, 이어서, 상기 제1 영상 일부 전처리데이터, 제2 영상 일부 전처리데이터는 특징추출부(130)를 통해 제1 영상 일부 특징데이터, 제2 영상 일부 특징데이터를 생성할 수 있다. 여기서, 다수 개 추출은 제1 및 제2에 한정되지 않는다.The data dividing unit extracts a portion of the image data or divides the image data to generate partial image data. Part of the image data is extracted and segmented and stored in the DB 10. Some of the image data may be eyes, nose, mouth, eyebrows, etc., but are not limited thereto, and may be any part obtained by dividing the face at a specific ratio, and the meaning is not limited. Subsequently, the preprocessing unit 120 may remove noise from the partial image data and generate partial image preprocessing data. Subsequently, the feature extraction unit 130 may extract features of the partial image preprocessing data using landmarks and generate partial image feature data. Here, the data division unit extracts a plurality of portions of the image data to generate partial first image data and partial second image data, and the first partial data and partial second image data are pre-processing unit 120 ) to generate partial first image preprocessing data and partial second image preprocessed data, and then, the partial first image preprocessed data and partial second image preprocessed data are partially characterized by the first image through the feature extraction unit 130. Data and partial feature data of the second image may be generated. Here, the plurality of extractions are not limited to the first and second.

상기 학습부(140)는 상기 기초데이터로부터 예상데이터를 학습하고 생성한다. 상기 학습부(140)는 상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성할 수 있다. The learning unit 140 learns and generates expected data from the basic data. The learning unit 140 may generate image prediction preprocessing data by predicting and learning noise of the image data from the image basic data.

또한, 상기 학습부(140)는 상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성할 수 있다.In addition, the learning unit 140 generates image expected feature data by predicting and learning features using landmarks in the image prediction preprocessed data, and predicts and learns features from the audio prediction preprocessed data to obtain audio prediction feature data. can create

예를들어, 노이즈 없는 영상 데이터란 모자, 이어폰, 마스크, 안경 등의 착용이 없는 상태의 얼굴정면인 안면에 대한 영상 데이터인 영상 기초데이터에서 모자, 이어폰, 마스크, 안경 등을 착용한 영상 예상데이터를 예상하여 학습하고, 상기 영상 예상데이터에서 다시 노이즈를 제거한 영상 예상 전처리데이터를 예상하고 학습하여 생성할 수 있다. 이어서, 상기 학습부(140)는 상기 영상 예상 전처리데이터의 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성할 수 있다. 상기 특징 추출은 랜드마크를 이용하여 특징을 추출할 수 있다. For example, noise-free image data is image data of the front of the face without wearing a hat, earphone, mask, or glasses, which is image data of the face, and image prediction data of wearing a hat, earphone, mask, or glasses, etc. It is possible to anticipate and learn, and predict, learn, and generate image prediction preprocessing data from which noise is removed again from the image prediction data. Subsequently, the learning unit 140 may generate image prediction feature data by predicting and learning features of the image prediction preprocessing data. The feature extraction may extract features using landmarks.

또한, 상기 학습부(140)는 상기 영상 기초데이터에서 영상 데이터의 일부를 예상하고 학습하여 영상 일부 예상데이터를 생성할 수 있다. 상기 영상 데이터의 일부는 눈, 코, 입, 눈썹 등이 될 수 있으며 이에 한정되지 않고 안면을 특정비율로 분할한 어느 일부분일 수 도 있으며 그 의미에 제한은 없다. 이어서, 상기 영상 일부 예상데이터에서 노이즈를 예상하고 학습하여 영상 일부 예상 전처리데이터를 생성할 수 있다. 이어서, 상기 영상 일부 예상 전처리데이터의 특징을 예상하고 학습하여 영상 일부 예상 특징데이터를 생성할 수 있다. In addition, the learning unit 140 may predict and learn a portion of image data from the image base data to generate partial image prediction data. Some of the image data may be eyes, nose, mouth, eyebrows, etc., but are not limited thereto, and may be any part obtained by dividing the face at a specific ratio, and the meaning is not limited. Subsequently, it is possible to generate partial image prediction preprocessing data by predicting and learning noise from the partial image prediction data. Subsequently, the predicted feature data of the partial image prediction preprocessing data may be predicted and learned to generate the predicted feature data of the partial image portion.

상기 학습부(140)는 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성할 수 있다. 예를들어, 노이즈 없는 음성 데이터인 주의소음, 다른사람의 목소리 등이 포함되지 않은 신원확인자의 목소리에 대한 음성 데이터인 음성 기초데이터로부터 노이즈인 주의소음, 다른사람 목소리 등이 포함된 예상 음성 데이터를 예상하고 학습하고, 상기 예상 음성 데이터에서 다시 노이즈를 제거한 음성 예상 전처리데이터를 예상하고 학습하여 생성할 수 있다. 이어서, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성할 수 있다. 여기서 상기 특징은 신원확인자의 목소리톤, 발언속도, 발음특징 등이 될 수 있으며 그 내용에 제한은 없다.The learning unit 140 may generate voice prediction preprocessing data by predicting and learning noise of the voice data from the voice basic data. For example, predictive voice data including noise, attention noise, other people's voices, etc., is obtained from voice basic data, which is voice data about the voice of an identification verifier that does not include noise-free voice data, such as attention noise and other people's voices. It is expected and learned, and voice prediction pre-processed data obtained by removing noise from the expected voice data may be predicted, learned, and generated. Subsequently, voice prediction feature data may be generated by predicting and learning features from the voice prediction preprocessing data. Here, the characteristics may be the tone of voice of the identity verifier, speech speed, pronunciation characteristics, etc., and the contents are not limited.

상기 분석부(150)는 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인한다. 보다 구체적으로 상기 분석부(150)는 상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고, 상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인할 수 있다.The analysis unit 150 compares and analyzes the feature data and expected data to confirm the identity. More specifically, the analysis unit 150 compares and analyzes the video feature data and expected image feature data to generate image result data, compares and analyzes the audio feature data and audio expected feature data to generate audio result data, The identity can be confirmed by merging the video result data and the audio result data.

또한, 상기 분석부(150)는 영상 일부데이터가 생성된 경우, 영상 일부 특징데이터와 영상 일부 예상 특징데이터를 비교분석하여 영상 일부 결과데이터를 생성하고, 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 일부 결과데이터와 음성 결과데이터를 병합하여 비교분석하고 신원을 확인할 수 있다. In addition, when partial image data is generated, the analysis unit 150 compares and analyzes partial image characteristic data and partial image expected characteristic data to generate partial image result data, and compares and analyzes audio characteristic data and expected audio characteristic data. Then, audio result data is generated, and the partial video result data and audio result data are merged, compared and analyzed, and the identity can be confirmed.

상기 출력부(160)는 상기 신원확인 결과를 출력한다. 상기 출력부(160)는 별도의 디스플레이를 가진 PC, 모바일과 같은 장치일 수 있으며 그 종류에 제한은 없다.The output unit 160 outputs the identification result. The output unit 160 may be a device such as a PC or mobile device having a separate display, and the type is not limited.

상기 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템(100)은 상기 신원확인 결과 등록된 신원을 찾을 수 없는 경우 경고 알람을 울리는 알람부를 더 포함할 수 있다.The identification system 100 using the voice recognition and some facial landmarks may further include an alarm unit that sounds a warning alarm when a registered identity cannot be found as a result of the identification.

도 3은 본 발명의 일 실시 예인 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 도식화한 도면이다.3 is a diagram illustrating an identification method using voice recognition and facial landmarks, which is an embodiment of the present invention.

도 4는 도 3의 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법을 구체적으로 도식화한 도면이다.FIG. 4 is a detailed diagram illustrating the identification method of FIG. 3 using voice recognition and facial landmarks.

도 5는 도 4의 다른 실시예를 도시한 도면이다.FIG. 5 is a view showing another embodiment of FIG. 4 .

음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법은 상기 설명한 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템에 의해 이루어지며, 모든 구체적인 내용은 상기 설명한 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템의 내용을 참조한다.The identification method using voice recognition and some facial landmarks is performed by the above-described voice recognition and identification system using some facial landmarks. see the contents of

도 3 내지 도 5를 참조하면, 본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법은, 신원확인자의 실시간 신원확인데이터 및 기초데이터를 수집하는 단계(S11,S21)가 수행된다. 상기 신원확인데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고, 상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함한다. Referring to FIGS. 3 to 5 , in the identification method using voice recognition and some facial landmarks according to the present invention, steps S11 and S21 of collecting real-time identification data and basic data of an identification verifier are performed. The identification data includes video data, which is face data of an identification verifier, and audio data, which is audio data, and the basic data is video basic data, which is face data of an identification verifier, and voice data, which is audio data. contains data

이어서, 상기 영상 데이터 및 음성 데이터의 노이즈를 제거하는 전처리 단계(S13)가 수행된다. 상기 전처리 단계(S13)는 상기 영상 데이터의 노이즈를 제거하고 전처리된 영상 데이터인 영상 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성할 수 있다.Subsequently, a preprocessing step (S13) of removing noise from the video data and audio data is performed. In the preprocessing step (S13), noise of the image data may be removed to generate image preprocessed data that is preprocessed image data, and noise of the audio data may be removed to generate audio preprocessed data that is preprocessed audio data.

이어서, 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계(S15)가 수행된다. 상기 신원확인데이터에서 특징을 추출하고 특징데이터를 생성하는 단계(S15)는 상기 영상 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성할 수 있다.Next, a step (S15) of confirming the identity by comparing and analyzing the feature data and expected data is performed. In the step of extracting features from the identification data and generating feature data (S15), features are extracted using landmarks from the image pre-processing data to generate image feature data, and features are extracted from the audio pre-processing data to generate voice data. Characteristic data can be created.

별도로, 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계(S23)가 수행된다. 상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계;는 상기 영상 기초데이터로부터 상기 영상 데이터의 노이즈를 예상하고 학습하여 영상 예상 전처리데이터를 생성하고, 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고, 상기 영상 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성할 수 있다.Separately, a step (S23) of learning and generating expected data from the basic data is performed. The step of learning and generating expected data from the basic data; predicting and learning noise of the video data from the video basic data to generate image prediction preprocessing data, predicting noise of the audio data from the audio basic data, Voice prediction preprocessing data is generated by learning, features are predicted and learned using landmarks from the image prediction preprocessed data to generate image prediction feature data, and features are predicted and learned from the audio prediction preprocessed data to voice prediction feature data can create

이어서, 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계(S31)가 수행된다. 상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계(S31)는 상기 영상 특징데이터와 영상 예상 특징데이터를 비교분석하여 영상 결과데이터를 생성하고, 상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인할 수 있다.Subsequently, a step (S31) of confirming the identity by comparing and analyzing the characteristic data and expected data is performed. The step of comparing and analyzing the feature data and expected data to confirm the identity (S31) compares and analyzes the image feature data and expected image feature data to generate image result data, and compares the audio feature data with the expected audio feature data. The audio result data is generated by analysis, and the identity can be confirmed by merging the video result data and the audio result data.

이어서, 신원확인 결과를 출력하는 단계(S33)가 수행된다.Subsequently, a step (S33) of outputting the identification result is performed.

이어서, 신원확인 결과 등록된 신원을 찾을 수 없는 경우 경고 알람을 울리는 단계를 더 포함할 수 있다.Subsequently, the method may further include sounding a warning alarm when the registered identity cannot be found as a result of the identity verification.

상기 S11 단계 이후, 영상 데이터의 일부를 추출하거나 영상 데이터를 분할하는 데이터분할단계(S12)가 수행될 수 있다. S12 단계가 수행되는 경우, S12단계에서 영상 일부 데이터가 생성된다. 이어서, S13단계에서 상기 영상 일부 데이터를 전처리하고 영상 일부 전처리데이터를 생성힌다. 이어서, S15 단계에서 상기 영상 일부 전처리데이터의 특징을 추출하여 영상 일부 특징데이터를 생성한다.After the step S11, a data dividing step (S12) of extracting a part of the image data or dividing the image data may be performed. When step S12 is performed, partial image data is generated in step S12. Subsequently, in step S13, the partial image data is preprocessed and partial image preprocessed data is generated. Subsequently, in step S15, partial image feature data is generated by extracting features of the partial image preprocessing data.

상기 S23단계에서, 영상 기초데이터로부터 상기 영상 기초데이터에서 영상 데이터의 일부를 예상하고 학습하여 영상 일부 예상데이터를 생성할 수 있다. 상기 영상 데이터의 일부는 눈, 코, 입, 눈썹 등이 될 수 있으며 이에 한정되지 않고 안면을 특정비율로 분할한 어느 일부분일 수 도 있으며 그 의미에 제한은 없다. 이어서, 상기 영상 일부 예상데이터에서 노이즈를 예상하고 학습하여 영상 일부 예상 전처리데이터를 생성할 수 있다. 이어서, 상기 영상 일부 예상 전처리데이터의 특징을 예상하고 학습하여 영상 일부 예상 특징데이터를 생성할 수 있다. 이 경우, S31 단계에서는 영상 일부 특징데이터와 영상 일부 예상 특징데이터를 비교분석하여 영상 일부 결과데이터를 생성하고, 상기 영상 일부 결과데이터와 음성 결과데이터를 병합하여 비교분석하고 신원확인 결과를 출력한다. In the step S23, partial image prediction data may be generated by predicting and learning a part of the image data from the image basic data. Some of the image data may be eyes, nose, mouth, eyebrows, etc., but are not limited thereto, and may be any part obtained by dividing the face at a specific ratio, and the meaning is not limited. Subsequently, it is possible to generate partial image prediction preprocessing data by predicting and learning noise from the partial image prediction data. Subsequently, the predicted feature data of the partial image prediction preprocessing data may be predicted and learned to generate the predicted feature data of the partial image portion. In this case, in step S31, partial image result data is generated by comparing and analyzing partial image feature data and partial image expected feature data, and the partial image result data and audio result data are merged, compared and analyzed, and an identification result is output.

본 발명에 따른 음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템 및 그 방법은, 상황의 제약으로 인하여 부분적인 신체데이터 및 음성 데이터로 신원확인을 할 수 있다. 또한, 모자, 안경, 마스크, 이어폰과 같은 노이즈가 없은 기초데이터를 기 등록하여 기초데이터로부터 노이즈를 학습하고, 데이터의 일부분을 특징화하고, 예상하는 것을 특징으로 하며, 노이즈가 있는 데이터를 별로로 수집하지 않고도 신원확인을 할 수 있는 것을 특징으로 한다. 또한, 안면 일부 및 음성 데이터를 모두 병합하여 신원을 비교함으로써 신원확인 결과의 질을 높을 수 있다.The identification system and method using voice recognition and partial facial landmarks according to the present invention can perform identification with partial body data and voice data due to circumstances. In addition, it is characterized by pre-registering noise-free basic data such as hats, glasses, masks, and earphones, learning noise from the basic data, characterizing and predicting a part of the data, and distinguishing noisy data separately. It is characterized in that identification can be performed without collection. In addition, the quality of the identification result can be improved by merging both the face part and voice data and comparing the identity.

즉, 본 발명에 따르면, 마스크를 쓴 상태에서 마스크를 벗지 않고도 신원확인을 할 수 있다. 또한, 같은 신원확인자에 대하여 마스크를 쓴 상태에서 신원확인시, 마스크를 쓴 데이터 없이도, 맨 얼굴에 대한 데이터로부터 마스크를 쓴 경우를 학습하여 비교데이터로 씀으로써 신원확인의 효율을 높일 수 있다.That is, according to the present invention, identification can be performed without taking off the mask while wearing the mask. In addition, when confirming the identity of the same person wearing a mask, the efficiency of identification can be increased by learning the case of wearing a mask from the bare face data and using it as comparison data without mask wearing data.

본 발명의 권리범위는 상술한 실시 예에 한정되는 것이 아니라 첨부된 특허청구범위 내에서 다양한 형태의 실시 예로 구현될 수 있다. 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자라면 누구든지 변형 가능한 다양한 범위까지 본 발명의 청구범위 기재의 범위 내에 있는 것으로 본다. The scope of the present invention is not limited to the above-described embodiments, but may be implemented in various forms of embodiments within the scope of the appended claims. Anyone skilled in the art without departing from the subject matter of the present invention claimed in the claims is considered to be within the scope of the claims of the present invention to various extents that can be modified.

10 DB 100 신원확인 시스템
110 데이터수집부 120 전처리부
130 특징추출부 140 학습부
150 분석부 160 출력부
10 DB 100 identification system
110 Data collection unit 120 Pre-processing unit
130 feature extraction unit 140 learning unit
150 analysis unit 160 output unit

Claims (12)

신원확인자의 신원확인 데이터 및 기초데이터를 수집하는 데이터수집부;
상기 신원확인 데이터의 특징을 추출하고 특징데이터를 생성하는 특징추출부;
상기 기초데이터로부터 예상데이터를 학습하고 생성하는 학습부;
상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 분석부;및
상기 신원확인 결과를 출력하는 출력부;를 포함하고,
상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고,
상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함하고,
상기 영상 기초데이터 및 음성 기초데이터는 신원확인자의 노이즈 없는 데이터이고,
상기 영상 데이터의 일부를 추출하거나, 상기 영상 데이터를 분할하여 영상 일부 데이터를 생성하는 데이터 분할부를 더 포함하고,
상기 영상 데이터 및 음성 데이터의 노이즈를 제거하는 전처리부;를 더 포함하고,
상기 전처리부는 상기 영상 일부 데이터의 노이즈를 제거하고 영상 일부 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성하고,
상기 특징추출부는,
상기 영상 일부 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 일부 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성하고,
상기 학습부는,
상기 영상 기초데이터에서 영상 데이터의 일부를 예상하고 학습하여 영상 일부 예상데이터를 생성하고, 상기 영상 일부 예상데이터에서 노이즈를 예상하고 학습하여 영상 일부 예상 전처리데이터를 생성하고, 상기 영상 일부 예상 전처리데이터에서 특징을 예상하고 학습하여 영상 일부 예상 특징데이터를 생성하고,
상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성하고,
상기 분석부는,
상기 영상 일부 특징데이터와 영상 일부 예상 특징데이터를 비교분석하여 영상 일부 결과데이터를 생성하고, 상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고, 상기 영상 일부 결과데이터와 음성 결과데이터를 병합하여 비교분석하고 신원을 확인하는,
음성인식 및 안면 일부 랜드마크를 이용한 신원확인 시스템.
a data collection unit that collects identification data and basic data of an identification verifier;
a feature extraction unit extracting features of the identification data and generating feature data;
a learning unit learning and generating expected data from the basic data;
An analysis unit that compares and analyzes the characteristic data and expected data to confirm an identity; and
Including; an output unit for outputting the identification result;
The identification data includes video data, which is data about the face of the identification person, and audio data, which is data about voice,
The basic data includes basic image data, which is data about the face of the identity verifier, and basic audio data, which is data about voice,
The basic video data and the basic audio data are noise-free data of the identity verifier,
Further comprising a data dividing unit extracting a portion of the image data or generating partial image data by dividing the image data;
Further comprising a pre-processing unit for removing noise of the video data and audio data;
The pre-processing unit removes noise from the partial image data and generates partial image preprocessing data, removes noise from the audio data and generates audio preprocessed data that is preprocessed audio data,
The feature extraction unit,
Extracting features using landmarks from the partial image preprocessing data to generate partial image feature data, extracting features from the audio preprocessing data to generate audio feature data,
The learning unit,
Some of the image data is predicted and learned from the image base data to generate partial image prediction data, and some image prediction preprocessing data is generated by predicting and learning noise from the image partial prediction data, and from the image partial prediction preprocessing data Anticipate and learn features to generate expected feature data for some of the images;
Anticipating and learning noise of the voice data from the voice basic data to generate voice prediction preprocessing data, predicting and learning features from the voice prediction preprocessing data to generate voice prediction feature data,
The analysis unit,
Part of the video feature data and expected part of the video feature data are compared and analyzed to generate part of the video result data, the audio feature data and the expected audio feature data are compared and analyzed to generate audio result data, and the part of the video result data and the audio result data are generated. Comparative analysis by merging the resulting data and confirming the identity,
An identification system using voice recognition and some facial landmarks.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 신원확인자의 실시간 신원확인 데이터 및 기초데이터를 수집하는 단계;
상기 신원확인 데이터에서 특징을 추출하고 특징데이터를 생성하는 단계;
상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계;
상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계;및
상기 신원확인 결과를 출력하는 단계;를 포함하고,
상기 신원확인 데이터는 신원확인자의 안면에 대한 데이터인 영상 데이터 및 음성에 대한 데이터인 음성 데이터를 포함하고,
상기 기초데이터는 신원확인자의 안면에 대한 데이터인 영상 기초데이터 및 음성에 대한 데이터인 음성 기초데이터를 포함하고,
상기 영상 기초데이터 및 음성 기초데이터는 신원확인자의 노이즈 없는 데이터이고,
신원확인자의 실시간 신원확인 데이터 및 기초데이터를 수집하는 단계 이후, 영상 데이터의 일부를 추출하거나 영상 데이터를 분할하여 영상 일부 데이터를 생성하는 데이터분할단계;를 더 포함하고,
상기 영상 일부 데이터 및 음성 데이터의 노이즈를 제거하는 전처리 단계;를 더 포함하고,
상기 전처리 단계는,
상기 영상 일부 데이터의 노이즈를 제거하고 전처리된 영상 일부 데이터인 영상 일부 전처리데이터를 생성하고, 상기 음성 데이터의 노이즈를 제거하고 전처리된 음성 데이터인 음성 전처리데이터를 생성하고,
상기 신원확인 데이터에서 특징을 추출하고 특징데이터를 생성하는 단계;는,
상기 영상 일부 전처리데이터에서 랜드마크를 이용하여 특징을 추출하여 영상 일부 특징데이터를 생성하고, 상기 음성 전처리데이터에서 특징을 추출하여 음성 특징데이터를 생성하고,
상기 기초데이터로부터 예상데이터를 학습하고 생성하는 단계;는,
상기 영상 기초데이터로부터 상기 영상 일부 데이터의 노이즈를 예상하고 학습하여 영상 일부 예상 전처리데이터를 생성하고, 상기 음성 기초데이터로부터 상기 음성 데이터의 노이즈를 예상하고 학습하여 음성 예상 전처리데이터를 생성하고,
상기 영상 일부 예상 전처리데이터에서 랜드마크를 이용해 특징을 예상하고 학습하여 영상 일부 예상 특징데이터를 생성하고, 상기 음성 예상 전처리데이터에서 특징을 예상하고 학습하여 음성 예상 특징데이터를 생성하고,
상기 특징데이터와 예상데이터를 비교분석하여 신원을 확인하는 단계;는,
상기 영상 일부 특징데이터와 영상 일부 예상 특징데이터를 비교분석하여 영상 일부 결과데이터를 생성하고,
상기 음성 특징데이터와 음성 예상 특징데이터를 비교분석하여 음성 결과데이터를 생성하고,
상기 영상 일부 결과데이터 및 음성 결과데이터를 병합하여 신원을 확인하는,
음성인식 및 안면 일부 랜드마크를 이용한 신원확인 방법.
Collecting real-time identification data and basic data of an identification verifier;
extracting features from the identification data and generating feature data;
learning and generating expected data from the basic data;
Confirming the identity by comparing and analyzing the characteristic data and expected data; And
Including; outputting the identification result;
The identification data includes video data, which is data about the face of the identification person, and audio data, which is data about voice,
The basic data includes basic image data, which is data about the face of the identity verifier, and basic audio data, which is data about voice,
The basic video data and the basic audio data are noise-free data of the identity verifier,
After the step of collecting the real-time identification data and basic data of the identity verifier, a data division step of extracting a part of the image data or dividing the image data to generate partial image data; further comprising,
Further comprising a pre-processing step of removing noise from the partial image data and audio data;
In the preprocessing step,
removing noise from the partial image data and generating partial image preprocessing data that is preprocessed partial image data, removing noise from the audio data and generating audio preprocessed data that is preprocessed audio data;
Extracting features from the identification data and generating feature data;
Extracting features using landmarks from the partial image preprocessing data to generate partial image feature data, extracting features from the audio preprocessing data to generate audio feature data,
Learning and generating expected data from the basic data;
Anticipating and learning noise of the partial video data from the video basic data to generate partial video expected preprocessing data, and predicting and learning noise of the audio data from the audio basic data to generate audio expected preprocessing data;
Expecting and learning features using landmarks from the partial image prediction preprocessing data to generate partial image expected feature data, predicting and learning features from the audio prediction preprocessing data to generate audio prediction feature data,
Confirming the identity by comparing and analyzing the feature data and expected data;
Partial image feature data and partial image expected feature data are compared and analyzed to generate partial image result data;
Comparing and analyzing the voice feature data and expected voice feature data to generate voice result data;
Confirming the identity by merging the video partial result data and the audio result data,
An identification method using voice recognition and facial landmarks.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020210055204A 2021-04-28 2021-04-28 identification system and method using landmark of part of the face and voice recognition KR102535244B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210055204A KR102535244B1 (en) 2021-04-28 2021-04-28 identification system and method using landmark of part of the face and voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210055204A KR102535244B1 (en) 2021-04-28 2021-04-28 identification system and method using landmark of part of the face and voice recognition

Publications (2)

Publication Number Publication Date
KR20220147998A KR20220147998A (en) 2022-11-04
KR102535244B1 true KR102535244B1 (en) 2023-05-26

Family

ID=84101477

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210055204A KR102535244B1 (en) 2021-04-28 2021-04-28 identification system and method using landmark of part of the face and voice recognition

Country Status (1)

Country Link
KR (1) KR102535244B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101795264B1 (en) * 2016-05-31 2017-12-01 현대자동차주식회사 Face landmark detection apparatus and verification method of the same
KR102009106B1 (en) * 2018-01-11 2019-08-08 고려대학교 산학협력단 Method for user authentication

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102290186B1 (en) * 2018-01-02 2021-08-17 주식회사 제네시스랩 Method of processing video for determining emotion of a person
KR20190141881A (en) 2018-06-15 2019-12-26 김양현 Smart Security System
KR102248706B1 (en) * 2019-08-28 2021-05-10 구인혁 System for intergrated education management based on intelligent image analysis technology and method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101795264B1 (en) * 2016-05-31 2017-12-01 현대자동차주식회사 Face landmark detection apparatus and verification method of the same
KR102009106B1 (en) * 2018-01-11 2019-08-08 고려대학교 산학협력단 Method for user authentication

Also Published As

Publication number Publication date
KR20220147998A (en) 2022-11-04

Similar Documents

Publication Publication Date Title
CN104361276B (en) A kind of multi-modal biological characteristic identity identifying method and system
McCool et al. Bi-modal person recognition on a mobile phone: using mobile phone data
Aleksic et al. Audio-visual biometrics
Wen et al. Face reconstruction from voice using generative adversarial networks
CN112997186A (en) Detection system for' viability
JP3584458B2 (en) Pattern recognition device and pattern recognition method
CN111881726B (en) Living body detection method and device and storage medium
KR20010039771A (en) Methods and apparatus for audio-visual speaker recognition and utterance verification
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
KR101937323B1 (en) System for generating signcription of wireless mobie communication
KR20120069922A (en) Face recognition apparatus and method thereof
JP2018169494A (en) Utterance intention estimation device and utterance intention estimation method
JP7412496B2 (en) Living body (liveness) detection verification method, living body detection verification system, recording medium, and training method for living body detection verification system
CN112347450B (en) Identity verification method based on blink sound signal
KR102535244B1 (en) identification system and method using landmark of part of the face and voice recognition
Chetty et al. Multimedia sensor fusion for retrieving identity in biometric access control systems
KR102265874B1 (en) Method and Apparatus for Distinguishing User based on Multimodal
Wen et al. Reconstructing faces from voices
KR20220147993A (en) identification system and method using landmark of face front and side
Yu et al. Biometric recognition by using audio and visual feature fusion
Beritelli et al. Performance evaluation of multimodal biometric systems based on mathematical models and probabilistic neural networks
Marcel et al. Bi-modal face and speech authentication: a biologin demonstration system
Agarwal et al. Learning to synthesize faces using voice clips for Cross-Modal biometric matching
KR102439216B1 (en) Method and server for recognizing face wearing mask using artificial intelligence deep learning
Almaadeed et al. Audio-visual feature fusion for speaker identification

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant