KR20220115452A - Liveness detection method based on appearance of mouth when pronouncing, and computing apparatus for performing the same - Google Patents

Liveness detection method based on appearance of mouth when pronouncing, and computing apparatus for performing the same Download PDF

Info

Publication number
KR20220115452A
KR20220115452A KR1020210019488A KR20210019488A KR20220115452A KR 20220115452 A KR20220115452 A KR 20220115452A KR 1020210019488 A KR1020210019488 A KR 1020210019488A KR 20210019488 A KR20210019488 A KR 20210019488A KR 20220115452 A KR20220115452 A KR 20220115452A
Authority
KR
South Korea
Prior art keywords
user
authentication
word
pronouncing
mobile terminal
Prior art date
Application number
KR1020210019488A
Other languages
Korean (ko)
Inventor
황시내
장정우
정자연
위호천
황영규
Original Assignee
주식회사 알체라
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 알체라 filed Critical 주식회사 알체라
Priority to KR1020210019488A priority Critical patent/KR20220115452A/en
Publication of KR20220115452A publication Critical patent/KR20220115452A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Collating Specific Patterns (AREA)

Abstract

Provided is a liveness detection method based on the mouth shape at the time of pronunciation, which includes the steps of: receiving an image of a user pronouncing at least one authentication word when the user attempts biometric authentication; and determining whether the user is a pre-registered user based on the received image and pre-stored biometric information corresponding to the user.

Description

발음 시 입모양에 기초한 실물감지 방법 및 이를 수행하기 위한 컴퓨팅 장치 {LIVENESS DETECTION METHOD BASED ON APPEARANCE OF MOUTH WHEN PRONOUNCING, AND COMPUTING APPARATUS FOR PERFORMING THE SAME}A method for real-life detection based on the shape of a mouth during pronunciation and a computing device for performing the same

본 명세서에서 개시되는 실시예들은 생체인증(biometric) 기술 중 사용자의 얼굴 모양을 인식하여 인증을 수행하는 안면인식에 관한 것으로서, 자세하게는 미리 촬영된 사진이나 동영상 등을 이용한 얼굴 도용을 차단하기 위한 실물감지(liveness detection) 방법에 관한 것이다.Embodiments disclosed in the present specification relate to facial recognition that performs authentication by recognizing a user's face shape among biometric technologies, and in detail, a real object for blocking face theft using pre-photographed photos or videos. It relates to a liveness detection method.

얼굴 인식을 통한 생체인증 기술은 크게 IR 카메라나 뎁스(depth) 카메라를 통해 촬영한 영상에 포함된 3차원 정보를 이용하는 기술과, 일반 카메라를 통해 촬영한 영상에 포함된 2차원 정보(RGB 정보)를 이용하는 기술로 나눌 수 있다.Biometric authentication technology through face recognition is largely a technology that uses 3D information included in an image captured by an IR camera or a depth camera, and 2D information (RGB information) included in an image captured by a general camera. It can be divided into techniques using

그런데, 2차원 정보를 이용하는 기술의 경우 미리 촬영된 사진이나 동영상을 이용한 얼굴 도용 공격에 노출될 수 있는 문제점을 가지고 있다.However, in the case of a technology using two-dimensional information, there is a problem in that it may be exposed to a face theft attack using a pre-photographed photo or video.

안면인식 방식으로 생체인증을 수행함에 있어서, 효과적으로 얼굴 도용 공격을 방어하기 위한 실물감지 방법 및 이를 수행하기 위한 장치를 제공하고자 한다.An object of the present invention is to provide a real detection method for effectively preventing face theft attacks in performing biometric authentication using a facial recognition method, and an apparatus for performing the same.

일 실시예에 따른 발음 시 입모양에 기초한 실물감지(liveness detection) 방법은, 사용자가 생체인증을 시도하면, 상기 사용자가 적어도 하나의 인증 단어를 발음하는 모습을 촬영한 영상을 수신하는 단계 및 상기 수신한 영상 및 상기 사용자에 대응되도록 미리 저장된 생체정보에 기초하여 상기 사용자가 미리 등록된 사용자인지 판단하는 단계를 포함할 수 있다.A liveness detection method based on a mouth shape when pronouncing according to an embodiment includes the steps of, when a user attempts biometric authentication, receiving an image of the user pronouncing at least one authentication word; The method may include determining whether the user is a pre-registered user based on the received image and biometric information stored in advance to correspond to the user.

본 명세서에서 개시되는 실시예들에서는 특정 단어를 발음할 때의 사용자의 입모양의 특징에 기초하여 실물감지를 수행함으로써 얼굴 도용 공격을 효과적으로 방어할 수 있다.In the embodiments disclosed herein, it is possible to effectively prevent face theft attacks by performing real-life detection based on the characteristics of the user's mouth shape when pronouncing a specific word.

개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.Effects obtainable in the disclosed embodiments are not limited to the above-mentioned effects, and other effects not mentioned are clear to those of ordinary skill in the art to which the embodiments disclosed from the description below belong. will be able to be understood

도 1은 일 실시예에 다른 실물감지 방법을 수행하기 위한 시스템을 도시한 도면이다.1 is a diagram illustrating a system for performing an object sensing method according to an embodiment.

아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, various embodiments will be described in detail with reference to the accompanying drawings. The embodiments described below may be modified and implemented in various different forms. In order to more clearly describe the characteristics of the embodiments, detailed descriptions of matters widely known to those of ordinary skill in the art to which the following embodiments belong are omitted. And, in the drawings, parts not related to the description of the embodiments are omitted, and similar reference numerals are attached to similar parts throughout the specification.

명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐 아니라, ‘그 중간에 다른 구성을 사이에 두고 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.Throughout the specification, when a component is said to be "connected" with another component, it includes not only the case where it is 'directly connected' but also the case where it is 'connected with another component in between'. In addition, when a component "includes" a component, it means that other components may be further included, rather than excluding other components, unless otherwise stated.

일반 카메라를 이용해 사용자의 얼굴을 촬영한 영상에 포함된 RGB 정보(2차원 정보)에 기초하여 생체인증을 수행하는 기술의 경우 다음과 같은 얼굴 도용 공격을 받을 수 있다.In the case of a technology that performs biometric authentication based on RGB information (two-dimensional information) included in an image of a user's face using a general camera, the following face theft attack may be applied.

첫 번째로, 미리 촬영된 사용자의 사진을 이용하여 인증을 시도하는 것으로 이를 프린트 어택(print attack)이라고 한다.First, authentication is attempted using a pre-photographed user's photo, which is called a print attack.

두 번째로, 미리 촬영된 사용자의 동영상을 이용하여 인증을 시도하는 것으로 이를 리플레이 어택(replay attack)이라고 한다.Second, authentication is attempted using a pre-recorded user's video, which is called a replay attack.

위와 같은 얼굴 도용 공격을 방어하기 위해 다음과 같은 실물감지(liveness detection) 기술을 이용할 수 있다.The following liveness detection technology can be used to defend against the face theft attack.

프린트 어택을 방어하기 위해서, 인증 시도 시 1차적으로는 사용자(인증 시도자)의 얼굴이 미리 등록된 사용자의 얼굴과 일치하는지 확인한 후, 2차적으로 미리 촬영된 사진이 아님을 확인할 수 있는 사용자의 움직임(e.g. 눈 깜박임)을 감지하는 경우에만 인증에 성공한 것으로 판단할 수 있다.In order to prevent print attack, when authentication is attempted, it is first checked whether the face of the user (authentication attempter) matches that of the pre-registered user, and then secondarily, the user who can confirm that the photo is not pre-taken. It can be determined that authentication is successful only when motion (e.g. blinking eyes) is detected.

또한 리플레이 어택을 방어하기 위해서, 인증 시도 시 1차적으로는 사용자의 얼굴이 미리 등록된 사용자의 얼굴과 일치하는지 확인한 후, 2차적으로 미리 녹화된 동영상이 아님을 확인할 수 있도록 사용자로 하여금 특정 동작(e.g. 얼굴 주변에 손을 올려서 제스처를 취함)을 수행하도록 요청하고, 사용자가 해당 동작을 수행하는 경우에만 인증에 성공한 것으로 판단할 수 있다.In addition, in order to prevent replay attack, when authentication is attempted, the user first checks whether the user's face matches the pre-registered user's face, and then allows the user to perform a specific action ( e.g. to make a gesture by placing a hand around the face), and it can be determined that authentication is successful only when the user performs the corresponding action.

본 명세서에서는 특정 단어를 발음하는 사용자를 촬영한 영상을 통해 실물감지를 수행하는 실시예들에 대해서 설명한다. 즉, 본 명세서에서 개시되는 실시예들에서는 특정 단어를 발음할 때의 사용자의 입모양의 특징에 기초하여 실물감지를 수행함으로써 얼굴 도용 공격을 효과적으로 방어할 수 있다.In the present specification, embodiments in which real sensing is performed through an image of a user pronouncing a specific word will be described. That is, in the embodiments disclosed herein, it is possible to effectively prevent a face theft attack by performing real-life detection based on a feature of a user's mouth shape when pronouncing a specific word.

도면을 참조하여 실시예에 대해서 자세히 설명하면 다음과 같다.The embodiment will be described in detail with reference to the drawings as follows.

도 1은 일 실시예에 다른 실물감지 방법을 수행하기 위한 시스템을 도시한 도면이다.1 is a diagram illustrating a system for performing an object sensing method according to an embodiment.

도 1을 참조하면, 사용자(1)가 모바일 단말(200)을 통해 생체인증을 시도하면, 모바일 단말(200)은 사용자(1)가 인증 단어를 발음하는 모습을 촬영하여 인증 서버(100)에 전송할 수 있다. 이때, '인증 단어'란 실물감지를 위해 사용되는 단어를 의미하며, 하나 또는 복수의 인증 단어가 설정될 수 있고, 인증 단어의 선택은 사용자(1) 또는 인증 서버(100)에 의해 수행될 수 있다. 자세하게는, 사용자(1)가 모바일 단말(200)을 통해 생체인증을 시도하면, 모바일 단말(200)에는 인증을 위한 동작(e.g. 카메라로 얼굴을 촬영하면서 인증 단어를 발음할 것)을 지시하는 UI 화면이 표시되고, 사용자(1)가 지시에 따라 자신의 얼굴을 촬영하면서 인증 단어를 발음하면, 모바일 단말(200)은 사용자(1)가 인증 단어를 발음하는 모습을 촬영하고 촬영된 영상을 인증 서버(100)에 전송할 수 있다.Referring to FIG. 1 , when a user 1 attempts biometric authentication through the mobile terminal 200 , the mobile terminal 200 records the user 1 pronouncing the authentication word and sends it to the authentication server 100 . can be transmitted At this time, the 'authentication word' means a word used for real sensing, one or a plurality of authentication words may be set, and selection of the authentication word may be performed by the user 1 or the authentication server 100. have. In detail, when the user 1 attempts biometric authentication through the mobile terminal 200, a UI instructing the mobile terminal 200 to perform an authentication operation (e.g., pronounce the authentication word while photographing a face with a camera). When the screen is displayed and the user 1 pronounces the authentication word while photographing his or her face according to the instruction, the mobile terminal 200 takes a picture of the user 1 pronouncing the authentication word and authenticates the captured image It can be transmitted to the server 100 .

인증 서버(100)는 수신한 촬영 영상으로부터 사용자의 입모양 변화를 인식하고, 이에 기초하여 진정한 사용자가 맞는지 판단할 수 있다. 자세하게는, 인증 서버(100)는 미리 학습된 인공신경망 모델을 이용하여 촬영 영상으로부터 특징점을 추출하고, 추출된 특징점을 사용자(1)에 대응되도록 미리 저장된 생체정보(사용자가 생체정보 등록 시 인증 서버에 저장한 영상으로부터 추출된 특징점)와 비교함으로써 미리 등록된 사용자가 맞는지 여부를 판단할 수 있다.The authentication server 100 may recognize a change in the user's mouth shape from the received captured image, and determine whether the user is a true user based on this. In detail, the authentication server 100 extracts key points from the captured image using a pre-learned artificial neural network model, and stores the extracted key points to correspond to the user 1 in advance of biometric information (when the user registers biometric information, the authentication server By comparing with the feature points extracted from the image stored in the .

이와 같은 방식의 실물감지를 수행하기 위해, 인증 서버(100)에는 사용자(1)가 인증 단어를 발음하는 모습을 촬영한 영상으로부터 추출된 특징점이 사용자(1)에 대응되는 생체정보로서 미리 저장될 수 있다. 예를 들어, 사용자(1)가 모바일 단말(200)을 통해 자신이 인증 단어를 발음하는 모습을 촬영하고, 촬영된 영상을 인증 서버(100)에 전송하면서 생체정보 등록을 요청하면, 인증 서버(100)는 인공신경망 모델을 이용해 촬영 영상으로부터 특징점을 추출하고, 추출된 특징점을 사용자(1)에 대응되는 생체정보로서 저장한 후, 추후 사용자(1)의 생체인증 시도 시 이를 이용할 수 있다.In order to perform real sensing in this way, the feature points extracted from the image of the user 1 pronouncing the authentication word are stored in advance as biometric information corresponding to the user 1 in the authentication server 100. can For example, when the user 1 takes a picture of himself pronouncing an authentication word through the mobile terminal 200 and requests biometric information registration while transmitting the captured image to the authentication server 100, the authentication server ( 100) extracts a feature point from a captured image using an artificial neural network model, stores the extracted feature point as biometric information corresponding to the user 1 , and then uses it when the user 1 attempts biometric authentication later.

동일한 단어를 발음하더라도 사람마다 입모양에 차이가 있기 때문에 이와 같은 방식으로 생체인증을 수행할 수 있다.Even when the same word is pronounced, since each person has a different mouth shape, biometric authentication can be performed in this way.

이하에서는 변형 가능한 다양한 실시예들에 대해서 설명한다.Hereinafter, various deformable embodiments will be described.

1. 제1 1. First 실시예Example

생체정보 등록 시 하나의 인증 단어를 발음하는 영상을 촬영하여 인증 서버(100)에 전송한다. 이때, 인증 단어는 사용자(1)가 임의로 선택할 수도 있지만, 인증 서버(100)가 선택하여 제시할 수도 있다.When registering biometric information, an image of pronouncing one authentication word is captured and transmitted to the authentication server 100 . In this case, the authentication word may be arbitrarily selected by the user 1 or may be selected and presented by the authentication server 100 .

사용자(1)가 모바일 단말(200)에서 인증 시도 시 모바일 단말(200)의 UI 화면에는 인증 단어에 대한 정보가 표시되지 않는다. 즉, 모바일 단말(200)의 UI 화면에는 실물감지를 위해 어떤 단어를 발음해야 하는지에 대한 안내가 표시되지 않고, 사용자(1)는 자신이 생체정보 등록 시 사용했던 인증 단어를 기억하고 있다가 해당 단어를 발음하는 모습을 촬영하며 생체인증을 시도해야 한다.When the user 1 attempts authentication in the mobile terminal 200 , information on the authentication word is not displayed on the UI screen of the mobile terminal 200 . That is, the UI screen of the mobile terminal 200 does not display a guide on which word to pronounce for real detection, and the user 1 remembers the authentication word he used when registering biometric information, and then You should try biometric authentication while recording the pronunciation of the word.

사용자(1)는 자신이 생체정보 등록 시 사용했던 인증 단어를 알고 있으므로, 이를 발음하는 모습을 모바일 단말(200)로 촬영하면서 인증을 시도할 수 있지만, 제3자는 인증 단어가 어떤 단어인지 알 수 없으므로 도용 공격에 대한 방어 효과를 기대할 수 있다.Since the user 1 knows the authentication word used when registering biometric information, the user 1 can try to authenticate while recording the pronunciation of the word with the mobile terminal 200, but the third party cannot know what the authentication word is. Therefore, you can expect a defensive effect against theft attacks.

모바일 단말(200)은 촬영된 영상을 인증 서버(100)로 전송하고, 인증 서버(100)는 수신한 촬영 영상으로부터 인공신경망을 이용해 특징점을 추출하고, 추출된 특징점을 사용자에 대응되도록 미리 저장된 생체정보(사용자의 생체정보 등록 시 촬영 영상으로부터 추출되어 저장된 특징점)와 비교하여 사용자가 등록된 사용자와 일치하는지 여부를 판단하고, 일치한다고 판단되면 인증에 성공한 것으로 판단할 수 있다.The mobile terminal 200 transmits the captured image to the authentication server 100, and the authentication server 100 extracts a feature point from the received captured image using an artificial neural network, and stores the extracted feature point in advance to correspond to the user. By comparing the information (feature points extracted from the captured image when registering the user's biometric information and stored), it is determined whether the user matches the registered user, and if it is determined that the user matches the registered user, it can be determined that authentication is successful.

2. 제2 2. Second 실시예Example

생체정보 등록 시 하나의 인증 단어를 발음하는 영상을 촬영하여 인증 서버(100)에 전송한다. 이때, 인증 단어는 사용자(1)가 임의로 선택할 수도 있지만, 인증 서버(100)가 선택하여 제시할 수도 있다.When registering biometric information, an image of pronouncing one authentication word is captured and transmitted to the authentication server 100 . In this case, the authentication word may be arbitrarily selected by the user 1 or may be selected and presented by the authentication server 100 .

사용자(1)가 모바일 단말(200)에서 인증 시도 시 모바일 단말(200)의 UI 화면에는 인증 단어의 일부(e.g. 적어도 하나의 음절 또는 적어도 하나의 음절의 초성 - 예를 들어, 인증 단어가 "비행기"라면 "비"만 표시되거나, "ㅂㅎㄱ"가 표시될 수 있음) 또는 전부가 표시될 수 있다.When the user 1 attempts authentication in the mobile terminal 200, the UI screen of the mobile terminal 200 displays a part of the authentication word (e.g. at least one syllable or the initial consonant of at least one syllable - for example, the authentication word is "airplane") If ", only "Rain" or "B ㅎ ㄱ" may be displayed) or all of it may be displayed.

사용자(1)는 모바일 단말(200)의 UI 화면을 통해 인증 단어를 떠올리고, 인증 단어를 발음하는 모습을 모바일 단말(200)로 촬영하면서 생체인증을 시도한다. 사용자(1)는 인증 시도 시 UI 화면을 통해 인증 단어에 대한 힌트를 얻을 수 있으므로 인증 단어 기억에 대한 부담이 줄어들어 사용자 편의성이 높아지는 효과를 기대할 수 있다.The user 1 recalls an authentication word through the UI screen of the mobile terminal 200 and attempts biometric authentication while photographing the pronunciation of the authentication word with the mobile terminal 200 . Since the user 1 can obtain a hint about the authentication word through the UI screen when attempting authentication, the burden on remembering the authentication word is reduced, thereby increasing user convenience.

모바일 단말(200)은 촬영된 영상을 인증 서버(100)로 전송하고, 인증 서버(100)는 수신한 촬영 영상으로부터 인공신경망을 이용해 특징점을 추출하고, 추출된 특징점을 사용자에 대응되도록 미리 저장된 생체정보(사용자 등록 시 촬영 영상으로부터 추출되어 저장된 특징점)와 비교하여 사용자가 등록된 사용자와 일치하는지 여부를 판단하고, 일치한다고 판단되면 인증에 성공한 것으로 판단할 수 있다.The mobile terminal 200 transmits the captured image to the authentication server 100, and the authentication server 100 extracts a feature point from the received captured image using an artificial neural network, and stores the extracted feature point in advance to correspond to the user. By comparing the information (feature points extracted and stored from the captured image at the time of user registration), it is determined whether the user matches the registered user, and when it is determined that the user matches the registered user, it can be determined that authentication is successful.

3. 제3 3. Third 실시예Example

생체정보 등록 시 미리 정해진 복수의 인증 단어를 발음하는 영상을 촬영하여 인증 서버(100)에 전송한다. 이때, 인증 단어는 사용자(1)가 임의로 선택할 수도 있지만, 인증 서버(100)가 선택하여 제시할 수도 있다.When registering biometric information, an image of pronouncing a plurality of predetermined authentication words is captured and transmitted to the authentication server 100 . In this case, the authentication word may be arbitrarily selected by the user 1 or may be selected and presented by the authentication server 100 .

사용자(1)가 모바일 단말(200)에서 생체인증 시도 시 모바일 단말(200)의 UI 화면에는 복수의 인증 단어들 중 적어도 하나가 랜덤하게 표시될 수 있다. 이때, UI 화면에는 복수의 인증 단어들 중 랜덤하게 선택된 적어도 하나의 인증 단어가 완전히 표시될 수도 있고, 또는 랜덤하게 선택된 적어도 하나의 인증 단어의 일부(e.g. 적어도 하나의 음절 또는 적어도 하나의 음절의 초성 - 예를 들어, 인증 단어가 "비행기"라면 "비"만 표시되거나, "ㅂㅎㄱ"가 표시될 수 있음)만 표시될 수도 있다.When the user 1 attempts biometric authentication in the mobile terminal 200 , at least one of a plurality of authentication words may be randomly displayed on the UI screen of the mobile terminal 200 . At this time, at least one authentication word randomly selected from among the plurality of authentication words may be completely displayed on the UI screen, or a part of at least one authentication word randomly selected (e.g. at least one syllable or the initial consonant of at least one syllable) - For example, if the authentication word is "airplane", only "rain" may be displayed, or "bha" may be displayed) may be displayed.

사용자(1)는 모바일 단말(200)의 UI 화면에 표시된 적어도 하나의 인증 단어를 발음하는 모습을 모바일 단말(200)로 촬영하면서 인증을 시도할 수 있다. 사용자(1)는 인증 시도 시 UI 화면을 통해 발음해야 하는 인증 단어를 확인하거나 인증 단어에 대한 힌트를 얻을 수 있으므로 인증 단어 기억에 대한 부담이 줄어들어 사용자 편의성이 높아지는 효과를 기대할 수 있다.The user 1 may attempt authentication while photographing the pronunciation of at least one authentication word displayed on the UI screen of the mobile terminal 200 with the mobile terminal 200 . The user 1 can check the authentication word to be pronounced through the UI screen or obtain a hint for the authentication word through the UI screen when attempting authentication, thereby reducing the burden on remembering the authentication word and increasing user convenience.

모바일 단말(200)은 촬영된 영상을 인증 서버(100)로 전송하고, 인증 서버(100)는 수신한 촬영 영상으로부터 인공신경망을 이용해 특징점을 추출하고, 추출된 특징점을 사용자에 대응되도록 미리 저장된 생체정보(사용자 등록 시 촬영 영상으로부터 추출되어 저장된 특징점)와 비교하여 사용자가 등록된 사용자와 일치하는지 여부를 판단하고, 일치한다고 판단되면 인증에 성공한 것으로 판단할 수 있다.The mobile terminal 200 transmits the captured image to the authentication server 100, and the authentication server 100 extracts a feature point from the received captured image using an artificial neural network, and stores the extracted feature point in advance to correspond to the user. By comparing the information (feature points extracted and stored from the captured image at the time of user registration), it is determined whether the user matches the registered user, and when it is determined that the user matches the registered user, it can be determined that authentication is successful.

4. 추가적인 4. Additional 실시예들Examples

이상 실시예들에서는 특정 단어를 발음하는 모습을 촬영한 영상을 이용해 실물감지를 수행하는 방법에 대해서 설명했는데, 단어가 아닌 문장을 이용하여 실물감지를 수행하는 것도 가능하다.Although the above embodiments have described a method of performing real sensing using an image of pronouncing a specific word, it is also possible to perform real sensing using sentences other than words.

또한, 생체정보 등록 시 사용자(1)가 발음한 단어들로 조합 가능한 단어를 생체인증 시도 시 사용할 수도 있다. 예를 들어, 생체정보 등록 시 사용자(1)가 1부터 10까지의 숫자를 발음하는 모습을 촬영한 영상을 이용하고, 생체인증 시도 시에는 사용자(1)에게 1부터 99까지의 숫자 중 적어도 하나를 랜덤하게 발음하도록 할 수도 있다. Also, words that can be combined with words pronounced by the user 1 when registering biometric information may be used when attempting biometric authentication. For example, when registering biometric information, an image of the user 1 pronouncing the numbers 1 to 10 is used, and when biometric authentication is attempted, at least one of the numbers 1 to 99 is used for the user 1 It can also be made to pronounce randomly.

5. 추가적인 특징 - 인증 단어의 선택 관련5. Additional Features - Related to Selection of Verification Words

이와 같이 사용자(1)가 단어를 발음하는 모습을 촬영한 영상으로부터 특징점을 추출하여 단어를 인식하는 경우, 단어마다 인식 정확도에 차이가 있을 수 있다.As such, when a word is recognized by extracting feature points from an image captured by the user 1 pronouncing a word, there may be a difference in recognition accuracy for each word.

따라서, 인증 서버(100)는 인식 정확도가 높은 단어를 인증 단어로서 선택할 수 있다. 예를 들어, 인증 서버(100)는 계속해서 인증을 수행하는 과정에서 사용된 인증 단어별로 인식 정확도를 산출하고, 그 결과에 따라서 인식 정확도가 일정 기준 이하인 단어는 인증 단어 풀에서 배제할 수 있다.Accordingly, the authentication server 100 may select a word with high recognition accuracy as the authentication word. For example, the authentication server 100 may calculate recognition accuracy for each authentication word used in the process of continuously performing authentication, and depending on the result, words having a recognition accuracy of less than or equal to a certain standard may be excluded from the authentication word pool.

인증 서버(100)는 직접 인증 단어 선택 시 인증 단어 풀에 포함된 단어 중에서 인증 단어를 선택할 수 있고, 사용자(1)가 인증 단어를 선택하는 경우에는 사용자(1)가 인증 단어 풀에 포함되지 않은 인증 단어를 선택하여 생체정보 등록을 시도하면 사용자(1)에게 다른 인증 단어를 이용할 것을 제안할 수 있다.The authentication server 100 may select an authentication word from among the words included in the authentication word pool when directly selecting the authentication word, and when the user 1 selects the authentication word, the user 1 is not included in the authentication word pool. When biometric information registration is attempted by selecting an authentication word, it may be suggested to the user 1 to use another authentication word.

이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.The term '~ unit' used in the above embodiments means software or hardware components such as field programmable gate array (FPGA) or ASIC, and '~ unit' performs certain roles. However, '-part' is not limited to software or hardware. '~unit' may be configured to reside in an addressable storage medium or may be configured to refresh one or more processors. Thus, as an example, '~' denotes components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, and procedures. , subroutines, segments of program patent code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays, and variables.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.Functions provided in components and '~ units' may be combined into a smaller number of components and '~ units' or separated from additional components and '~ units'.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.In addition, components and '~ units' may be implemented to play one or more CPUs in a device or secure multimedia card.

상기 설명된 실시예에 따른 발음 시 입모양에 기초한 실물감지 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.The method for detecting an object based on the shape of a mouth during pronunciation according to the above-described embodiment may be implemented in the form of a computer-readable medium for storing instructions and data executable by a computer. In this case, the instructions and data may be stored in the form of program codes, and when executed by the processor, a predetermined program module may be generated to perform a predetermined operation. In addition, computer-readable media can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media. In addition, the computer-readable medium may be a computer recording medium, which is a volatile and non-volatile and non-volatile embodied in any method or technology for storage of information such as computer-readable instructions, data structures, program modules, or other data. It may include both volatile, removable and non-removable media. For example, the computer recording medium may be a magnetic storage medium such as HDD and SSD, an optical recording medium such as CD, DVD, and Blu-ray disc, or a memory included in a server accessible through a network.

또한 상기 설명된 실시예에 따른 발음 시 입모양에 기초한 실물감지 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.In addition, the method for detecting an object based on the shape of a mouth during pronunciation according to the above-described embodiment may be implemented as a computer program (or computer program product) including instructions executable by a computer. The computer program includes programmable machine instructions processed by a processor, and may be implemented in a high-level programming language, an object-oriented programming language, an assembly language, or a machine language. . In addition, the computer program may be recorded in a tangible computer-readable recording medium (eg, a memory, a hard disk, a magnetic/optical medium, or a solid-state drive (SSD), etc.).

따라서 상기 설명된 실시예에 따른 발음 시 입모양에 기초한 실물감지 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.Accordingly, the method for detecting an object based on the shape of a mouth during pronunciation according to the above-described embodiment may be implemented by executing the above-described computer program by a computing device. The computing device may include at least a portion of a processor, a memory, a storage device, a high-speed interface connected to the memory and the high-speed expansion port, and a low-speed interface connected to the low-speed bus and the storage device. Each of these components is connected to each other using various buses, and may be mounted on a common motherboard or mounted in any other suitable manner.

여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.Here, the processor may process a command within the computing device, such as for displaying graphic information for providing a Graphical User Interface (GUI) on an external input or output device, such as a display connected to a high-speed interface, for example. For example, instructions stored in memory or a storage device. In other embodiments, multiple processors and/or multiple buses may be used with multiple memories and types of memory as appropriate. In addition, the processor may be implemented as a chipset formed by chips including a plurality of independent analog and/or digital processors.

또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.Memory also stores information within the computing device. As an example, the memory may be configured as a volatile memory unit or a set thereof. As another example, the memory may be configured as a non-volatile memory unit or a set thereof. The memory may also be another form of computer readable medium such as, for example, a magnetic or optical disk.

그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.In addition, the storage device may provide a large-capacity storage space to the computing device. The storage device may be a computer-readable medium or a component comprising such a medium, and may include, for example, devices or other components within a storage area network (SAN), a floppy disk device, a hard disk device, an optical disk device, Alternatively, it may be a tape device, a flash memory, or other semiconductor memory device or device array similar thereto.

상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The above-described embodiments are for illustration, and those of ordinary skill in the art to which the above-described embodiments pertain can easily transform into other specific forms without changing the technical idea or essential features of the above-described embodiments. You will understand. Therefore, it should be understood that the above-described embodiments are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and likewise components described as distributed may also be implemented in a combined form.

본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.The scope to be protected through this specification is indicated by the claims described below rather than the above detailed description, and should be construed to include all changes or modifications derived from the meaning and scope of the claims and their equivalents. .

1: 사용자 100: 인증 서버
200: 모바일 단말
1: User 100: Authentication Server
200: mobile terminal

Claims (1)

발음 시 입모양에 기초한 실물감지(liveness detection) 방법에 있어서,
사용자가 생체인증을 시도하면, 상기 사용자가 적어도 하나의 인증 단어를 발음하는 모습을 촬영한 영상을 수신하는 단계; 및
상기 수신한 영상 및 상기 사용자에 대응되도록 미리 저장된 생체정보에 기초하여 상기 사용자가 미리 등록된 사용자인지 판단하는 단계를 포함하는, 방법.
In the liveness detection method based on the shape of the mouth during pronunciation,
receiving an image captured by the user pronouncing at least one authentication word when the user attempts biometric authentication; and
and determining whether the user is a pre-registered user based on the received image and biometric information stored in advance to correspond to the user.
KR1020210019488A 2021-02-10 2021-02-10 Liveness detection method based on appearance of mouth when pronouncing, and computing apparatus for performing the same KR20220115452A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210019488A KR20220115452A (en) 2021-02-10 2021-02-10 Liveness detection method based on appearance of mouth when pronouncing, and computing apparatus for performing the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210019488A KR20220115452A (en) 2021-02-10 2021-02-10 Liveness detection method based on appearance of mouth when pronouncing, and computing apparatus for performing the same

Publications (1)

Publication Number Publication Date
KR20220115452A true KR20220115452A (en) 2022-08-17

Family

ID=83110897

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210019488A KR20220115452A (en) 2021-02-10 2021-02-10 Liveness detection method based on appearance of mouth when pronouncing, and computing apparatus for performing the same

Country Status (1)

Country Link
KR (1) KR20220115452A (en)

Similar Documents

Publication Publication Date Title
US10482230B2 (en) Face-controlled liveness verification
US10546183B2 (en) Liveness detection
US10832086B2 (en) Target object presentation method and apparatus
WO2016172872A1 (en) Method and device for verifying real human face, and computer program product
US10339402B2 (en) Method and apparatus for liveness detection
US20180232591A1 (en) Dynamic Face and Voice Signature Authentication for Enhanced Security
US20140013422A1 (en) Continuous Multi-factor Authentication
US9576121B2 (en) Electronic device and authentication system therein and method
JP6155306B2 (en) Face recognition method, apparatus, program, and computer-readable recording medium
US20130342703A1 (en) System and Method for Identifying Human Face
US10275684B2 (en) Authentication method and apparatus, and method and apparatus for training a recognizer
KR101954763B1 (en) Face recognition access control apparatus and operation method thereof
WO2023034251A1 (en) Spoof detection based on challenge response analysis
WO2017000217A1 (en) Living-body detection method and device and computer program product
US20220245963A1 (en) Method, apparatus and computer program for authenticating a user
US11335094B2 (en) Detecting fake videos
KR20220115452A (en) Liveness detection method based on appearance of mouth when pronouncing, and computing apparatus for performing the same
JP2015169977A (en) Personal authentication device, personal authentication method, personal authentication program, and automatic transaction system
US11507646B1 (en) User authentication using video analysis
TWI628557B (en) Motion picture eye tracking authentication and facial recognition system, methods, computer readable system, and computer program product
CN114202677A (en) Method and system for authenticating an occupant in a vehicle interior
US11166079B2 (en) Viewport selection for hypervideo presentation
KR102434483B1 (en) Method for managing biometrics system and apparatus for performing the same
US20240086508A1 (en) System and method for facilitating multi-factor face authentication of user
KR102555103B1 (en) Method and system for detecting active liveness using face image