KR20220080950A - Smart speaker security enhancement method using user location tracking and face recognition - Google Patents

Smart speaker security enhancement method using user location tracking and face recognition Download PDF

Info

Publication number
KR20220080950A
KR20220080950A KR1020200170265A KR20200170265A KR20220080950A KR 20220080950 A KR20220080950 A KR 20220080950A KR 1020200170265 A KR1020200170265 A KR 1020200170265A KR 20200170265 A KR20200170265 A KR 20200170265A KR 20220080950 A KR20220080950 A KR 20220080950A
Authority
KR
South Korea
Prior art keywords
user
face
vocalization
sound
location
Prior art date
Application number
KR1020200170265A
Other languages
Korean (ko)
Inventor
박용석
이경택
박세호
Original Assignee
한국전자기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자기술연구원 filed Critical 한국전자기술연구원
Priority to KR1020200170265A priority Critical patent/KR20220080950A/en
Publication of KR20220080950A publication Critical patent/KR20220080950A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

사용자 위치추적 및 얼굴인식을 이용한 스마트 스피커 보안 강화 방법이 제공된다. 본 발명의 실시예에 따른 사용자 신원 확인 방법은, 감지된 소리를 근원 별로 구분하고, 소리 근원의 위치에서 발성이 발생했는지 확인하며, 발성이 등록된 사용자에 의한 것인지 판별한다. 이에 의해, 식별 능력을 향상시켜 강화된 보안이 가능하여, 악의적인 목적을 가진 자가 고음질로 녹음된 등록된 사용자의 목소리로 위장하는 것을 구분해 낼 수 있게 된다.A smart speaker security enhancement method using user location tracking and face recognition is provided. A user identification method according to an embodiment of the present invention classifies a sensed sound by source, checks whether vocalization occurs at the location of the sound source, and determines whether the vocalization is by a registered user. Thereby, enhanced security is possible by improving the identification ability, and it is possible to distinguish a person with a malicious purpose disguised as a registered user's voice recorded with high sound quality.

Description

사용자 위치추적 및 얼굴인식을 이용한 스마트 스피커 보안 강화 방법{Smart speaker security enhancement method using user location tracking and face recognition}Smart speaker security enhancement method using user location tracking and face recognition

본 발명은 인공지능 기반의 스마트 스피커에 얼굴인식 기술을 적용하는 방법에 관한 것으로, 음성의 주체를 영상으로 확인하여 강화된 보안을 제공하는 방법에 관한 것이다.The present invention relates to a method of applying face recognition technology to an artificial intelligence-based smart speaker, and to a method for providing enhanced security by identifying a subject of a voice with an image.

스마트 스피커는 인공지능 음성인식과 자연어 처리, 음성합성 기술을 이용하여 사용자와의 대화내용을 분석하여 필요한 서비스를 제공한다. 스마트 스피커는 딥러닝(deep learning) 기법 적용으로 자연어 인식률이 높아졌다. 복잡한 연산과 방대한 언어 관련 데이터베이스를 요구하는 스마트 스피커의 인공지능 플랫폼은 일반적으로 클라우드에서 작동한다. 개별 기기는 웨이크업(wake-up) 명령 인식과 주변 소음, 음악과 사람의 음성을 분리하는 데이터 전처리만 담당하며, 웨이크업 명령 처리를 제외한 음성인식은 클라우드에서 구동한다.The smart speaker uses artificial intelligence speech recognition, natural language processing, and speech synthesis technology to analyze conversations with users and provide necessary services. The smart speaker has a higher natural language recognition rate by applying deep learning techniques. A smart speaker's artificial intelligence platform, which requires complex computations and a vast linguistic database, typically operates in the cloud. Individual devices are only responsible for the wake-up command recognition and data preprocessing that separates ambient noise, music and human voice.

현재 스마트 스피커의 대다수는 사용자 구분 없이 웨이크업 명령어에 반응하여 서비스를 제공하고 있다. 최근 개별 사용자를 목소리로 구분할 수 있는 스마트 스피커가 등장하고 있어, 다수의 사용자가 개인취향에 맞는 차별화된 서비스를 제공받을 수 있게 하고 있다.Currently, the majority of smart speakers provide services in response to wake-up commands, regardless of users. Recently, smart speakers that can distinguish individual users with their voices have emerged, allowing a large number of users to receive differentiated services tailored to their individual tastes.

스마트 스피커는 음성으로만 사용자를 인식하기 때문에 보안 취약점이 발생한다. 등록된 사용자의 목소리를 녹음하여 스마트 스피커 앞에 재생할 경우, 스마트 스피커는 목소리를 등록된 사용자로 인식하여 명령을 수행한다. 악의적인 목적을 가진 자가 고음질로 녹음된 등록된 사용자의 목소리로 위장할 경우, 이를 스마트 스피커가 음성분석만으로 실제 등록된 사용자와 구분하는 것은 매우 어렵다.A security vulnerability occurs because smart speakers recognize users only by voice. When the registered user's voice is recorded and played in front of the smart speaker, the smart speaker recognizes the voice as the registered user and performs a command. When a person with a malicious purpose disguises a registered user's voice recorded with high sound quality, it is very difficult for the smart speaker to distinguish it from an actual registered user only by voice analysis.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 악의적인 목적을 가진 자가 등록된 사용자의 목소리로 위장하는 것을 구별하기 위한 방안으로, 얼굴인식 기술을 이용하여 스마트 스피커의 등록된 사용자 구분함으로써, 식별 능력을 향상시켜 강화된 보안을 제공하는 방법을 제공함에 있다.The present invention has been devised to solve the above problems, and an object of the present invention is to distinguish a person with a malicious purpose disguising as a registered user's voice, a smart speaker using face recognition technology It is to provide a method of providing enhanced security by improving identification ability by classifying registered users of

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 사용자 신원 확인 방법은, 감지된 소리를 근원(source) 별로 구분하는 단계; 소리 근원의 위치에서 발성이 발생했는지 확인하는 단계; 발성이 등록된 사용자에 의한 것인지 판별하는 단계;를 포함한다.According to an embodiment of the present invention for achieving the above object, a user identification method includes the steps of classifying a detected sound by source; determining whether vocalization has occurred at the location of the sound source; and determining whether the vocalization is by a registered user.

확인 단계에서 소리 근원의 위치에서 발성이 발생하지 않은 것으로 확인되면, 사용자 신원 확인 실패로 처리할 수 있다.In the verification step, if it is confirmed that vocalization does not occur at the location of the sound source, it may be treated as a user identification failure.

구분 단계는, 배열 마이크를 이용하여 소리를 감지할 수 있다.In the classification step, a sound may be detected using an array microphone.

확인 단계는, 소리 근원의 위치를 카메라로 촬영한 이미지의 위치에 매핑하는 단계; 이미지의 위치에서 얼굴이 감지되면, 감지된 얼굴에서 시각적 발성이 발생했는지 판단하는 단계;를 포함할 수 있다.The confirmation step may include mapping the location of the sound source to the location of the image captured by the camera; when a face is detected at the position of the image, determining whether visual vocalization has occurred in the detected face; may include.

판단 단계는, 감지된 얼굴에서 입모양 움직임을 감지하여, 시각적 발성이 발생했는지 판단할 수 있다.In the determining step, it may be determined whether visual vocalization has occurred by detecting a mouth movement in the detected face.

판단 단계에서 이미지의 위치에서 얼굴이 감지되지 않으면, 사용자 신원 확인 실패로 처리할 수 있다.If a face is not detected at the location of the image in the determination step, it may be treated as a user identity verification failure.

본 발명의 일 실시예에 따른, 사용자 신원 확인 방법은, 구분된 소리에서 고유 특징을 추출하는 단계; 감지된 얼굴에서 얼굴의 고유 특징을 추출하는 단계;를 더 포함하고, 판별 단계는, 추출한 소리의 고유 특징과 얼굴의 고유 특징을 데이터 베이스에 등록된 사용자의 고유 특징들과 비교하여, 등록된 사용자인지 판별할 수 있다.According to an embodiment of the present invention, a user identification method includes: extracting a unique feature from a divided sound; The method further comprises: extracting the unique features of the face from the detected face, wherein the determining step compares the extracted unique features of the sound and the unique features of the face with the unique features of the user registered in the database, and the registered user It can be determined whether

한편, 본 발명의 다른 실시예에 따른, 사용자 신원 확인 장치는, 감지된 소리를 근원(source) 별로 구분하는 음성추적부; 소리 근원의 위치에서 발성이 발생했는지 확인하는 확인부; 발성이 등록된 사용자에 의한 것인지 판별하는 신원 확인부;를 포함한다.On the other hand, according to another embodiment of the present invention, a user identification apparatus, a voice tracking unit for classifying the sensed sound for each source (source); a confirmation unit for confirming whether vocalization has occurred at the location of the sound source; It includes; an identification unit that determines whether the vocalization is by a registered user.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 얼굴인식 기술을 이용하여 스마트 스피커의 등록된 사용자 구분함으로써, 식별 능력을 향상시켜 강화된 보안이 가능하여, 악의적인 목적을 가진 자가 고음질로 녹음된 등록된 사용자의 목소리로 위장하는 것을 구분해 낼 수 있게 된다.As described above, according to the embodiments of the present invention, by classifying the registered users of the smart speaker using the face recognition technology, enhanced security is possible by improving the identification ability, so that a person with a malicious purpose records with high sound quality It is possible to distinguish the disguised voice of the registered registered user.

도 1. 안면인식 보안이 적용된 스마트 스피커 블록도
도 2. 사용자 등록 프로세스
도 3. 사용자 확인 프로세스
도 4. 소리와 이미지 매핑 프로세스
도 5. 얼굴감지 및 인식 프로세스
도 6. 시각적 발성 감지, Liveness 감지 프로세스
도 7. 사용자 신원 확인 프로세스
Figure 1. Block diagram of a smart speaker with facial recognition security applied
Fig. 2. User registration process
Fig. 3. User verification process
Fig. 4. Sound and image mapping process
Fig. 5. Face detection and recognition process
Fig. 6. Visual vocalization detection, Liveness detection process
Fig. 7. User identity verification process

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.Hereinafter, the present invention will be described in more detail with reference to the drawings.

본 발명의 실시예에서는 사용자 위치추적 및 얼굴인식을 이용한 스마트 스피커 보안 강화 방법을 제시한다.An embodiment of the present invention proposes a smart speaker security enhancement method using user location tracking and face recognition.

구체적으로, 본 발명의 실시예서는 인공지능 기반의 스마트 스피커에 얼굴인식 기술을 적용함에 있어, 음성의 주체를 영상으로 확인하여 강화된 보안을 제공한다.Specifically, the embodiment of the present invention provides enhanced security by confirming the subject of the voice as an image in applying the face recognition technology to the artificial intelligence-based smart speaker.

즉, 본 발명의 실시예에 따른 방법에서는, 음성이 발생하는 위치에 얼굴이 있는지 감지하고, 감지된 얼굴에서 실제 발성이 일어났는지 그리고 실제 사람의 얼굴인지 판별한 후에, 얼굴인식과 음성인식으로 사용자 신원을 확인한다. That is, in the method according to the embodiment of the present invention, after detecting whether a face is present at a location where a voice is generated, and determining whether actual vocalization has occurred in the detected face and whether it is a real human face, the user can perform face recognition and voice recognition Verify your identity.

도 1은 본 발명의 일 실시예에 따른 스마트 스피커의 블럭도이다. 본 발명의 실시예에 따른 스마트 스피커는, 도시된 바와 같이, 사용자 데이터베이스부(105), 신원 확인부(110), Liveness 확인부(115), 음성인식부(120), 얼굴인식부(125), 음성추적부(130), 좌표매핑부(135), 영상출력부(140), 음성출력부(145), 음성입력부(150), 카메라부(155)를 포함하여 구성된다.1 is a block diagram of a smart speaker according to an embodiment of the present invention. The smart speaker according to an embodiment of the present invention, as shown, the user database unit 105, the identity verification unit 110, the liveness verification unit 115, the voice recognition unit 120, the face recognition unit 125 , a voice tracking unit 130 , a coordinate mapping unit 135 , an image output unit 140 , an audio output unit 145 , an audio input unit 150 , and a camera unit 155 .

음성출력부(145)는 스피커로 구성되며 사용자에게 음성으로 안내 또는 응답하는 기능을 한다.The voice output unit 145 is composed of a speaker and functions to guide or respond to the user by voice.

음성입력부(150)는 배열 마이크(array microphone)로 구성되며 다양한 방향에서의 소리를 감지한다.The voice input unit 150 is composed of an array microphone and detects sounds from various directions.

음성추적부(130)는 음성입력부(150)에 의해 감지된 소리의 위치를 파악하며(localization), 추적하고(tracking), 분리(separation)하는 기능을 한다.The voice tracking unit 130 functions to localize, track, and separate the location of the sound detected by the voice input unit 150 .

음성인식부(120)는 음성추적부(130)에서 분리된 목소리의 고유 특징을 추출한다.The voice recognition unit 120 extracts the unique characteristics of the voice separated from the voice tracking unit 130 .

카메라부(155)는 스마트 스피커의 전방과 주변을 촬영하여 영상을 생성하는 촬영장치이다.The camera unit 155 is a photographing device that generates an image by photographing the front and surrounding areas of the smart speaker.

좌표매핑부(135)는 음성추적부(130)에 의해 감지된 소리의 위치를 카메라부(155)에 의해 촬영된 영상 화면상의 좌표와 매칭(matching) 한다.The coordinate mapping unit 135 matches the position of the sound detected by the voice tracking unit 130 with the coordinates on the image screen captured by the camera unit 155 .

영상출력부(140)는 소리 발생위치와 화면상의 매핑이 잘 이루어졌는지 시각적으로 확인하기 위해 사용된다.The image output unit 140 is used to visually confirm whether the sound generation location and the mapping on the screen are well made.

얼굴인식부(125)는 카메라부(155)에 의해 촬영된 영상에서 얼굴영역을 찾고 해당 영역에 대해서 얼굴 고유 특징을 추출한다.The face recognition unit 125 finds a face region in the image captured by the camera unit 155 and extracts a unique face feature from the region.

Liveness 확인부(115)는 얼굴인식부(125)에 의해 인식된 얼굴영역에서 입술 움직임 감지 등을 수행하여 시각적 발성이 있었는지 감지하고, 실제 사용자 얼굴인지 가짜 얼굴(사진, 동영상 등)인지 확인한다.The liveness check unit 115 detects whether there is a visual vocalization by performing lip motion detection in the face region recognized by the face recognition unit 125, and confirms whether a real user's face or a fake face (photo, video, etc.) .

사용자 데이터베이스부(105)는 등록된 사용자들의 목소리 및 얼굴 고유 특징 정보를 저장한다.The user database unit 105 stores voice and facial features of registered users.

신원 확인부(110)는 입력되는 소리 특징, 얼굴 특징 정보를 사용자 데이터베이스부(105)에 등록된 특징들과 비교하여 등록된 사용자인지 확인하고, liveness 여부를 확인하여 진짜 사용자인지 확인한다.The identity verification unit 110 compares the input sound characteristics and facial characteristic information with characteristics registered in the user database unit 105 to confirm that the user is a registered user, and checks whether the user is a real user by checking liveness.

도 2는 사용자 등록 과정을 보여준다. 사용자 등록 과정은 사용자의 얼굴 특징 정보와 음성 특징 정보를 사용자 데이터베이스부(105)에 저장/등록하는 절차이다.2 shows a user registration process. The user registration process is a process of storing/registering the user's facial feature information and voice feature information in the user database unit 105 .

이를 위해, 도 2에 도시된 바와 같이, 음성출력부(145)는 사용자에게 등록 안내 절차를 음성안내를 이용하여 설명한다. 사용자는 안내에 따라 카메라부(155)를 통해 얼굴을 촬영하고, 음성입력부(150)를 통해 음성을 녹음한다.To this end, as shown in FIG. 2 , the voice output unit 145 explains the registration guidance procedure to the user using voice guidance. The user takes a picture of a face through the camera unit 155 according to the guidance, and records a voice through the voice input unit 150 .

얼굴인식부(125)는 촬영된 얼굴에서 사용자의 고유 특징을 추출하고, 음성인식부(120)은 녹음된 음성에서 사용자의 고유 특징을 추출한다. 추출된 고유 특징들은 사용자 데이터베이스부(105)에 저장/등록된다.The face recognition unit 125 extracts the user's unique features from the photographed face, and the voice recognition unit 120 extracts the user's unique features from the recorded voice. The extracted unique features are stored/registered in the user database unit 105 .

도 3은 사용자 신원 확인 절차를 보여준다. 사용자가 정당하게 등록된 실제 사용자인지 판별하는 절차이다.3 shows a user identity verification procedure. This is a procedure to determine whether a user is a legitimately registered real user.

먼저, 음성추적부(130)는 음성입력부(150)의 배열 마이크에서 감지된 소리를 근원(source) 별로 구분하고, 음성인식부(120)는 구분된 목소리에서 고유 특징을 추출한다(S210).First, the voice tracking unit 130 classifies sounds detected by the array microphone of the voice input unit 150 by source, and the voice recognition unit 120 extracts unique features from the divided voices (S210).

그러면, 좌표매핑부(135)가 S210단계에서 감지된 소리 근원의 위치를 카메라부(155)에 의해 촬영/생성된 이미지의 위치에 매핑시킨다(S220). 도 4에는 소리와 이미지를 매핑시킨 결과를 예시하였다.Then, the coordinate mapping unit 135 maps the position of the sound source detected in step S210 to the position of the image captured/generated by the camera unit 155 (S220). 4 illustrates a result of mapping a sound and an image.

그리고, 얼굴인식부(125)는 소리 근원의 위치에서 얼굴영역을 찾는데, 얼굴이 감지되면 얼굴인식부(125)는 얼굴의 고유 특징을 추출한다(S230). 반면, 얼굴이 감지되지 않으면, 사용자 신원 확인 실패로 처리된다.Then, the face recognition unit 125 finds a face region at the location of the sound source, and when a face is detected, the face recognition unit 125 extracts a unique feature of the face (S230). On the other hand, if a face is not detected, it is treated as a user identity verification failure.

도 5에는 얼굴 감지 과정을 예시하였다. 도 5에서 노란색으로 표시된 소리 근원과 빨간색으로 표시된 소리 근원에서는 얼굴이 감지된 것으로 처리되고, 파란색으로 표시된 소리 근원에서는 얼굴이 감지되지 않은 것으로 처리된다.5 illustrates a face detection process. In FIG. 5 , the sound source indicated in yellow and the sound source indicated in red are processed as detected, and the face is processed as not detected in the sound source indicated in blue.

이후, Liveness 확인부(115)는 S230단계에서 감지된 얼굴영역에서 입술 움직임 감지 등을 수행하여 시각적 발성이 있었는지 감지한다(S240). 또한, S240단계에서는 실제 사람의 얼굴인지 가짜 얼굴(사진, 동영상 등) 인지 확인하여, 얼굴에 대한 추가적인 Liveness 감지를 수행한다.Thereafter, the liveness check unit 115 detects whether there is a visual vocalization by performing lip motion detection in the face region detected in step S230 (S240). In addition, in step S240, it is checked whether a face of a real person or a fake face (photo, video, etc.) is performed, and additional liveness detection is performed on the face.

S240단계에서 감지된 얼굴로부터 시각적 발성이 발생하지 않았거나 실제 사람의 얼굴이 아닌 가짜 얼굴로 확인되면, 사용자 신원 확인 실패로 처리한다.If visual vocalization does not occur from the detected face in step S240 or it is confirmed as a fake face instead of a real human face, it is treated as a user identity verification failure.

도 6에는 시각적 발성 감지 과정을 예시하였다. 도 6에서 노란색으로 표시된 소리 근원은 시각적 발성이 있는 것으로 처리되지만, 파란색과 빨간색으로 표시된 소리 근원은 입술 움직임이 없으므로 시각적 발성이 없는 것으로 처리된다.6 exemplifies the visual vocalization detection process. In FIG. 6 , sound sources indicated in yellow are treated as having visual vocalization, but sound sources indicated in blue and red are treated as having no visual vocalization because there is no lip movement.

다음, 신원 확인부(110)는 S210단계에서 추출된 목소리의 고유 특징과 S230단계에서 추출된 얼굴의 고유 특징을 사용자 데이터베이스부(105)에 등록된 특징들과 비교하여 등록된 사용자인지 판별한다(S250).Next, the identification unit 110 compares the unique features of the voice extracted in step S210 and the unique features of the face extracted in step S230 with the features registered in the user database unit 105 to determine whether the user is a registered user ( S250).

S250단계에서 추출된 특징들과 등록된 추출들이 동일하지 않으면, 사용자 신원 확인 실패로 처리한다.If the features extracted in step S250 and the registered extractions are not the same, it is treated as a user identity verification failure.

도 7에는 사용자 신원 확인 결과를 예시하였다. 노란색으로 표시된 소리 근원에서는 얼굴이 감지되고 입술 움직임도 있었으며 추출된 특징들이 등록된 사용자 A의 추출들과 일치하여 등록된 사용자 A로 확인되었다.7 exemplifies the user identification result. In the sound source indicated in yellow, a face was detected and there was also a movement of the lips, and the extracted features matched the extractions of the registered user A, and thus the registered user A was identified.

파란색으로 표시된 소리 근원(녹음기)은 목소리가 등록된 사용자 B와 일치하지만, 얼굴이 감지되지 않았고 입술 움직임도 없어 사용자 신원 확인 실패로 처리되었다.The sound source (recorder) marked in blue matches user B whose voice is registered, but has no face detected and no lip movement, so it was treated as a user identity verification failure.

그리고, 빨간색으로 표시된 소리 근원(가면)은 얼굴이 감지되었고, 얼굴과 목소리가 사용자 B와 일치하였지만, 입술 움직임이 없어 사용자 신원 확인 실패로 처리되었다.And, the sound source (mask) marked in red was detected as a face, and the face and voice matched user B, but there was no lip movement, so it was treated as a user identification failure.

지금까지, 사용자 위치추적 및 얼굴인식을 이용한 스마트 스피커 보안 강화 방법에 대해 바람직한 실시예를 들어 상세히 설명하였다.So far, a preferred embodiment has been described in detail with respect to a smart speaker security enhancement method using user location tracking and face recognition.

위 실시예에서는, 얼굴인식 기술을 이용하여 스마트 스피커의 등록된 사용자 구분, 식별 능력을 향상시켰다.In the above embodiment, the smart speaker's registered user classification and identification ability was improved by using the face recognition technology.

이에 의해, 녹음을 이용한 등록된 사용자 가장 행위, 가면이나 사진을 이용한 등록된 사용자 가장 행위를 구분해낼 수 있게 되어, 스마트 스피커의 보안을 강화할 수 있게 된다.Thereby, it is possible to distinguish a registered user impersonation action using a recording and a registered user impersonation action using a mask or a photo, thereby strengthening the security of the smart speaker.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.On the other hand, it goes without saying that the technical idea of the present invention can be applied to a computer-readable recording medium containing a computer program for performing the functions of the apparatus and method according to the present embodiment. In addition, the technical ideas according to various embodiments of the present invention may be implemented in the form of computer-readable codes recorded on a computer-readable recording medium. The computer-readable recording medium may be any data storage device readable by the computer and capable of storing data. For example, the computer-readable recording medium may be a ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical disk, hard disk drive, or the like. In addition, the computer-readable code or program stored in the computer-readable recording medium may be transmitted through a network connected between computers.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.In addition, although preferred embodiments of the present invention have been illustrated and described above, the present invention is not limited to the specific embodiments described above, and the technical field to which the present invention belongs without departing from the gist of the present invention as claimed in the claims In addition, various modifications are possible by those of ordinary skill in the art, and these modifications should not be individually understood from the technical spirit or perspective of the present invention.

105 : 사용자 데이터베이스부
110 : 신원 확인부
115 : Liveness 확인부
120 : 음성인식부
125 : 얼굴인식부
130 : 음성추적부
135 : 좌표매핑부
140 : 영상출력부
145 : 음성출력부
150 : 음성입력부
155 : 카메라부
105: user database unit
110: identification unit
115: Liveness check unit
120: voice recognition unit
125: face recognition unit
130: voice tracking unit
135: coordinate mapping unit
140: video output unit
145: audio output unit
150: voice input unit
155: camera unit

Claims (8)

감지된 소리를 근원(source) 별로 구분하는 단계;
소리 근원의 위치에서 발성이 발생했는지 확인하는 단계;
발성이 등록된 사용자에 의한 것인지 판별하는 단계;를 포함하는 것을 특징으로 하는 사용자 신원 확인 방법.
classifying the sensed sound for each source;
determining whether vocalization has occurred at the location of the sound source;
Determining whether the vocalization is by a registered user; User identification method comprising the.
청구항 1에 있어서,
확인 단계에서 소리 근원의 위치에서 발성이 발생하지 않은 것으로 확인되면, 사용자 신원 확인 실패로 처리하는 것을 특징으로 하는 사용자 신원 확인 방법.
The method according to claim 1,
In the confirmation step, if it is confirmed that the vocalization does not occur at the location of the sound source, the user identity verification method is characterized in that it is treated as a user identification verification failure.
청구항 1에 있어서,
구분 단계는,
배열 마이크를 이용하여 소리를 감지하는 것을 특징으로 하는 사용자 신원 확인 방법.
The method according to claim 1,
The division step is
A method for identifying a user, comprising detecting a sound using an array microphone.
청구항 1에 있어서,
확인 단계는,
소리 근원의 위치를 카메라로 촬영한 이미지의 위치에 매핑하는 단계;
이미지의 위치에서 얼굴이 감지되면, 감지된 얼굴에서 시각적 발성이 발생했는지 판단하는 단계;를 포함하는 것을 특징으로 하는 사용자 신원 확인 방법.
The method according to claim 1,
The verification step is
mapping the location of the sound source to the location of the image captured by the camera;
When a face is detected at the location of the image, determining whether a visual vocalization has occurred in the detected face; User identification method comprising: a.
청구항 4에 있어서,
판단 단계는,
감지된 얼굴에서 입모양 움직임을 감지하여, 시각적 발성이 발생했는지 판단하는 것을 특징으로 하는 사용자 신원 확인 방법.
5. The method according to claim 4,
The judgment step is
A user identification method, characterized in that it is determined whether a visual vocalization has occurred by detecting a movement of a mouth shape in the detected face.
청구항 4에 있어서,
판단 단계에서 이미지의 위치에서 얼굴이 감지되지 않으면, 사용자 신원 확인 실패로 처리하는 것을 특징으로 하는 사용자 신원 확인 방법.
5. The method according to claim 4,
If the face is not detected in the position of the image in the determining step, the user identification method characterized in that the user identification verification failure.
청구항 4에 있어서,
구분된 소리에서 고유 특징을 추출하는 단계;
감지된 얼굴에서 얼굴의 고유 특징을 추출하는 단계;를 더 포함하고,
판별 단계는,
추출한 소리의 고유 특징과 얼굴의 고유 특징을 데이터 베이스에 등록된 사용자의 고유 특징들과 비교하여, 등록된 사용자인지 판별하는 것을 특징으로 하는 사용자 신원 확인 방법.
5. The method according to claim 4,
extracting unique features from the divided sounds;
Further comprising; extracting the unique features of the face from the detected face;
The identification step is
A user identification method, characterized in that it is determined whether the user is a registered user by comparing the extracted unique features of the sound and the unique features of the face with the unique features of the user registered in the database.
감지된 소리를 근원(source) 별로 구분하는 음성추적부;
소리 근원의 위치에서 발성이 발생했는지 확인하는 확인부;
발성이 등록된 사용자에 의한 것인지 판별하는 신원 확인부;를 포함하는 것을 특징으로 하는 사용자 신원 확인 장치.
a voice tracking unit that classifies the sensed sound by source;
a confirmation unit for confirming whether vocalization has occurred at the location of the sound source;
User identification device comprising a; an identification unit for determining whether the vocalization is by a registered user.
KR1020200170265A 2020-12-08 2020-12-08 Smart speaker security enhancement method using user location tracking and face recognition KR20220080950A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200170265A KR20220080950A (en) 2020-12-08 2020-12-08 Smart speaker security enhancement method using user location tracking and face recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200170265A KR20220080950A (en) 2020-12-08 2020-12-08 Smart speaker security enhancement method using user location tracking and face recognition

Publications (1)

Publication Number Publication Date
KR20220080950A true KR20220080950A (en) 2022-06-15

Family

ID=81987524

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200170265A KR20220080950A (en) 2020-12-08 2020-12-08 Smart speaker security enhancement method using user location tracking and face recognition

Country Status (1)

Country Link
KR (1) KR20220080950A (en)

Similar Documents

Publication Publication Date Title
TWI706268B (en) Identity authentication method and device
CN106251874B (en) A kind of voice gate inhibition and quiet environment monitoring method and system
CN112997186A (en) Detection system for' viability
CN106599866A (en) Multidimensional user identity identification method
CN106709402A (en) Living person identity authentication method based on voice pattern and image features
CN104361276A (en) Multi-mode biometric authentication method and multi-mode biometric authentication system
US20150169943A1 (en) System, method and apparatus for biometric liveness detection
CN104376250A (en) Real person living body identity verification method based on sound-type image feature
KR20010039771A (en) Methods and apparatus for audio-visual speaker recognition and utterance verification
JP7412496B2 (en) Living body (liveness) detection verification method, living body detection verification system, recording medium, and training method for living body detection verification system
EP3772016B1 (en) Method and apparatus for entering human face information into database
KR20190085731A (en) Method for user authentication
CN114677634B (en) Surface label identification method and device, electronic equipment and storage medium
CN110364163A (en) The identity identifying method that a kind of voice and lip reading blend
WO2021166811A1 (en) Information processing device and action mode setting method
CN113920560A (en) Method, device and equipment for identifying identity of multi-modal speaker
KR20220080950A (en) Smart speaker security enhancement method using user location tracking and face recognition
Shenai et al. Fast biometric authentication system based on audio-visual fusion
Bredin et al. Making talking-face authentication robust to deliberate imposture
CN108831230B (en) Learning interaction method capable of automatically tracking learning content and intelligent desk lamp
CN111563244A (en) Identity authentication method, identity authentication device, computer equipment and storage medium
CN111611569A (en) Face voiceprint rechecking terminal and identity authentication method thereof
Ramya et al. Enhanced Speaker Verification Incorporated with Face Recognition
Suthokumar et al. An analysis of speaker dependent models in replay detection
Aides et al. Robust audiovisual liveness detection for biometric authentication using deep joint embedding and dynamic time warping

Legal Events

Date Code Title Description
A201 Request for examination