KR20210038871A - 리플레이 공격의 탐지 - Google Patents
리플레이 공격의 탐지 Download PDFInfo
- Publication number
- KR20210038871A KR20210038871A KR1020217000242A KR20217000242A KR20210038871A KR 20210038871 A KR20210038871 A KR 20210038871A KR 1020217000242 A KR1020217000242 A KR 1020217000242A KR 20217000242 A KR20217000242 A KR 20217000242A KR 20210038871 A KR20210038871 A KR 20210038871A
- Authority
- KR
- South Korea
- Prior art keywords
- audio signal
- identified
- frequency spectrum
- frequency
- expected
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title description 3
- 230000005236 sound signal Effects 0.000 claims abstract description 237
- 238000001228 spectrum Methods 0.000 claims abstract description 174
- 238000000034 method Methods 0.000 claims abstract description 88
- 238000012360 testing method Methods 0.000 claims description 64
- 230000000694 effects Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 4
- 238000002604 ultrasonography Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000005070 sampling Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000009172 bursting Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005355 Hall effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
리플레이 공격을 탐지하는 방법은, 음성을 나타내는 오디오 신호를 수신하는 단계; 상기 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별하는 단계; 상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분의 주파수 스펙트럼에 대한 정보를 획득하는 단계; 및 상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분에 대해, 상기 오디오 신호의 예상된 주파수 스펙트럼에 대한 정보를 검색하는 단계; 상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하는 단계; 및 상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼과 각각의 예상된 주파수 스펙트럼 사이의 차이의 측정값이 임계 레벨을 초과하는 경우 상기 오디오 신호가 리플레이 공격으로 인한 것일 수 있다고 결정하는 단계를 포함한다.
Description
본 명세서에 설명된 실시형태는 음성 생체 인식 시스템(voice biometrics system)에 대한 리플레이 공격을 탐지하기 위한 방법 및 디바이스에 관한 것이다.
음성 생체 인식 시스템이 널리 사용되고 있다. 이러한 시스템에서 사용자는 등록 단계 동안 음성 샘플을 제공함으로써 시스템을 훈련시킨다. 이후 사용 시 시스템은 등록된 사용자와 등록되지 않은 화자(speaker) 간을 구별할 수 있다. 음성 생체 인식 시스템은 원칙적으로 광범위한 서비스 및 시스템에 대한 액세스를 제어하는 데 사용될 수 있다.
악의적인 당사자가 음성 생체 인식 시스템을 무력화시키고 시도하는 하나의 방식은 등록된 사용자의 음성에 대한 레코딩을 획득하고 등록된 사용자를 가장하려는 시도에서 레코딩을 재생하고 등록된 사용자로 제한되도록 의도된 서비스에 대한 액세스 권한을 취득하는 것이다.
이는 리플레이 공격(replay attack) 또는 스푸핑 공격(spoofing attack)이라고 지칭된다.
본 발명의 일 양태에 따르면, 리플레이 공격을 탐지하는 방법이 제공되고, 상기 방법은,
음성을 나타내는 오디오 신호를 수신하는 단계;
상기 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별하는 단계;
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분의 주파수 스펙트럼에 대한 정보를 획득하는 단계;
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분에 대해,
상기 오디오 신호의 예상된 주파수 스펙트럼에 대한 정보를 검색하는 단계;
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하는 단계; 및
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼과 각각의 예상된 주파수 스펙트럼 사이의 차이의 측정값이 임계 레벨을 초과하는 경우 상기 오디오 신호가 리플레이 공격으로 인한 것일 수 있다고 결정하는 단계를 포함한다.
상기 방법은,
수신된 오디오 신호로부터 채널 및/또는 잡음의 효과를 제거하는 단계; 및
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분의 주파수 스펙트럼에 대한 정보를 얻을 때 상기 채널 및/또는 잡음의 효과를 제거한 후 상기 오디오 신호를 사용하는 단계를 더 포함할 수 있다.
상기 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별하는 단계는 적어도 하나의 테스트 음향 등급을 식별하는 단계를 포함할 수 있다. 상기 적어도 하나의 테스트 음향 등급은 하나 이상의 특정 음소를 포함할 수 있다. 상기 적어도 하나의 테스트 음향 등급은 마찰음, 특히 치찰음; 및/또는 파열음을 포함할 수 있다.
적어도 하나의 테스트 음향 등급을 식별하는 단계는 알려진 음성 콘텐츠에서 상기 테스트 음향 등급의 발생 위치를 식별하는 단계를 포함할 수 있다. 상기 알려진 음성 콘텐츠는 패스 어구(pass phrase)를 포함할 수 있다.
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하는 단계는,
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 5kHz 내지 20kHz 범위의 주파수 대역의 각각의 예상된 주파수 스펙트럼과 비교하는 것을 포함할 수 있다.
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하는 단계는,
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 20Hz 내지 200Hz의 주파수 대역의 각각의 예상된 주파수 스펙트럼과 비교하는 것을 포함할 수 있다.
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하는 단계는,
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 초음파 주파수 대역의 각각의 예상된 주파수 스펙트럼과 비교하는 것을 포함할 수 있다:
상기 오디오 신호의 식별된 부분을 대응하는 테스트 음향 등급에 대한 각각의 검색된 정보와 비교하는 단계는,
상기 오디오 신호의 식별된 부분의 적어도 하나의 주파수 대역의 전력 레벨을 상기 오디오 신호의 예상된 스펙트럼의 적어도 하나의 대응하는 주파수 대역의 전력 레벨과 비교하는 것을 포함할 수 있다.
상기 오디오 신호의 식별된 부분과 이에 대응하는 테스트 음향 등급에 대한 각각의 검색된 정보 사이의 차이의 측정값은 1dB보다 더 큰 전력 차이를 포함할 수 있다.
상기 방법은,
상기 수신된 오디오 신호에 대해 화자 식별 프로세스를 수행하는 단계; 및
각 테스트 음향 등급에 대해, 상기 화자 식별 프로세스에 의해 식별된 화자에 대한 상기 오디오 신호의 예상된 스펙트럼에 대한 정보를 검색하는 단계를 더 포함할 수 있다.
상기 오디오 신호의 예상된 주파수 스펙트럼에 대한 정보를 검색하는 단계는 적어도 하나의 특정 음향 등급이 나타날 것으로 예상되는 오디오 신호의 위치를 식별하는 것을 포함할 수 있고; 상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼을 비교하는 단계는 상기 식별된 위치에서의 주파수 스펙트럼을 상기 식별된 위치에서의 예상된 주파수 스펙트럼과 비교하는 것을 포함할 수 있다.
상기 특정 음향 등급은 적어도 일부 마찰음을 포함할 수 있다.
상기 방법은 마찰음이 나타날 것으로 예상되는 상기 위치에서 주파수 스펙트럼이 마찰음의 특징인지 여부를 결정하는 단계를 포함할 수 있다.
적어도 하나의 특정 음향 등급이 나타날 것으로 예상되는 오디오 신호의 위치를 식별하는 단계는 상기 적어도 하나의 특정 음향 등급이 나타나는 미리 결정된 발화(utterance)에서 위치를 식별하는 것을 포함할 수 있다.
상기 미리 결정된 발화는 패스 어구를 포함할 수 있다.
본 발명의 다른 측면에 따르면, 리플레이 공격을 탐지하기 위한 시스템이 제공되고, 상기 시스템은,
음성을 나타내는 오디오 신호를 수신하기 위한 입력; 및
프로세서를 포함하고, 상기 프로세서는,
상기 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별하고;
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분의 주파수 스펙트럼에 대한 정보를 획득하고;
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분에 대해, 상기 오디오 신호의 예상된 주파수 스펙트럼에 대한 정보를 검색하고;
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하고;
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼과 각각의 예상된 주파수 스펙트럼 사이의 차이의 측정값이 임계 레벨을 초과하는 경우 상기 오디오 신호가 리플레이 공격으로 인한 것일 수 있다고 결정하도록 구성된다.
또한 이러한 시스템을 포함하는 디바이스가 제공되고, 여기서 상기 디바이스는 스마트폰, 태블릿 또는 랩톱 컴퓨터, 게임 콘솔, 홈 제어 시스템, 홈 엔터테인먼트 시스템, 차량 내 엔터테인먼트 시스템, 또는 가정용 기기 중 하나를 포함한다.
본 발명의 추가 양태에 따르면, 적절한 프로그래밍된 프로세서로 하여금 제1 양태에 따른 방법을 수행하게 하기 위한 코드를 저장하는 유형적인 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다.
제2 양태에 따르면, 리플레이 공격을 탐지하는 방법이 제공되고, 상기 방법은,
음성을 나타내는 오디오 신호를 수신하는 단계;
상기 음성이 마찰음으로 구성된 상기 오디오 신호의 적어도 일부분을 식별하는 단계;
상기 오디오 신호의 적어도 일부분 동안 초음파 주파수에 존재하는 에너지의 양에 관한 정보를 획득하는 단계; 및
상기 오디오 신호가 초음파 주파수에 존재하는 에너지의 양에 대한 상기 정보에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 포함한다.
상기 방법은,
상기 음성이 유성음으로 구성된 상기 오디오 신호의 제2 부분 동안 초음파 주파수에 존재하는 에너지의 양에 대한 정보를 획득하는 단계; 및
상기 오디오 신호가 초음파 주파수에 존재하는 에너지의 양에 관한 상기 정보에 기초하고 그리고 상기 오디오 신호의 제2 부분 동안 초음파 주파수에 존재하는 에너지의 양에 관한 상기 정보에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 더 포함할 수 있다.
상기 방법은,
상기 오디오 신호가 상기 오디오 신호의 제2 부분 동안 초음파 주파수에 존재하는 에너지의 양에 대한 상기 오디오 신호의 적어도 일부분 동안 초음파 주파수에 존재하는 에너지의 양의 비율에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 포함할 수 있다.
상기 방법은,
상기 오디오 신호의 상기 적어도 일부분 동안 가청 주파수에 존재하는 에너지의 양에 관한 정보를 획득하는 단계; 및
상기 오디오 신호가 초음파 주파수에 존재하는 에너지의 양에 대한 상기 정보에 기초하고 그리고 상기 오디오 신호의 상기 적어도 일부분 동안 가청 주파수에 존재하는 에너지의 양에 대한 상기 정보에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 더 포함할 수 있다.
상기 방법은,
상기 오디오 신호가 상기 오디오 신호의 상기 적어도 일부분 동안 가청 주파수에 존재하는 에너지의 양에 대한 초음파 주파수에 존재하는 에너지의 양의 비율에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 포함할 수 있다.
상기 방법은,
상기 오디오 신호의 상기 적어도 일부분 동안 가청 주파수에 존재하는 에너지의 양에 대한 초음파 주파수에 존재하는 에너지의 양의 제1 비율을 계산하는 단계;
상기 오디오 신호의 제2 부분 동안 가청 주파수에 존재하는 에너지의 양의 제2 비율에 대해 상기 음성이 유성음으로 구성된 오디오 신호의 제2 부분 동안 초음파 주파수에 존재하는 에너지의 양을 계산하는 단계; 및
상기 제2 비율에 대한 상기 제1 비율의 비율을 계산하는 단계를 포함할 수 있다.
다른 양태에 따르면, 리플레이 공격을 탐지하기 위한 시스템이 제공되고, 상기 시스템은,
음성을 나타내는 오디오 신호를 수신하기 위한 입력; 및
프로세서를 포함하고, 상기 프로세서는,
상기 음성이 마찰음으로 구성된 오디오 신호의 적어도 일부분을 식별하고;
상기 오디오 신호의 적어도 일부분 동안 초음파 주파수에 존재하는 에너지의 양에 관한 정보를 획득하고;
상기 오디오 신호가 초음파 주파수에 존재하는 에너지의 양에 대한 상기 정보에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하도록 구성된다.
또한 이러한 시스템을 포함하는 디바이스가 제공되고, 여기서 상기 디바이스는 스마트폰, 태블릿 또는 랩톱 컴퓨터, 게임 콘솔, 홈 제어 시스템, 홈 엔터테인먼트 시스템, 차량 내 엔터테인먼트 시스템, 또는 가정용 기기 중 하나를 포함한다.
추가 양태에 따르면, 적절한 프로그래밍된 프로세서로 하여금 제2 양태에 따른 방법을 수행하게 하기 위한 코드를 저장하는 유형적인 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다.
본 발명의 더 나은 이해를 위해 그리고 본 발명을 실시할 수 있는 방법을 보여주기 위해, 이제 첨부된 도면을 참조할 것이다.
도 1은 스마트폰을 도시하는 도면;
도 2는 스마트폰의 형태를 도시하는 개략도;
도 3은 리플레이 공격이 수행되는 상황의 일례를 나타내는 도면;
도 4는 음성 생체 인식 시스템의 기능 블록을 나타내는 블록도;
도 5는 음성 생체 인식 시스템에서 리플레이 공격을 탐지하는 방법을 설명하는 흐름도;
도 6은 도 4의 시스템의 일부를 도시하는 도면; 및
도 7 내지 도 9는 오디오 신호가 리플레이 공격으로 인한 결과일 수 있는 여러 상황에서 오디오 신호의 식별된 부분과 대응하는 테스트 음향 등급에 대해 각각의 검색된 정보 간을 비교하는 예를 도시하는 도면.
도 1은 스마트폰을 도시하는 도면;
도 2는 스마트폰의 형태를 도시하는 개략도;
도 3은 리플레이 공격이 수행되는 상황의 일례를 나타내는 도면;
도 4는 음성 생체 인식 시스템의 기능 블록을 나타내는 블록도;
도 5는 음성 생체 인식 시스템에서 리플레이 공격을 탐지하는 방법을 설명하는 흐름도;
도 6은 도 4의 시스템의 일부를 도시하는 도면; 및
도 7 내지 도 9는 오디오 신호가 리플레이 공격으로 인한 결과일 수 있는 여러 상황에서 오디오 신호의 식별된 부분과 대응하는 테스트 음향 등급에 대해 각각의 검색된 정보 간을 비교하는 예를 도시하는 도면.
이하의 설명은 본 개시에 따른 예시적인 실시형태를 제시한다. 다른 예시적인 실시형태 및 구현은 이 기술 분야에 통상의 지식을 가진 자에게 명백할 것이다. 또한, 이 기술 분야에 통상의 지식을 가진 자라면 다양한 등가 기술이 후술되는 실시형태를 대신하여 또는 실시형태와 함께 적용될 수 있으며, 이러한 모든 등가물은 본 개시에 포함되는 것으로 간주된다는 것을 이해할 수 있을 것이다.
본 명세서에 설명된 방법은 광범위한 디바이스 및 시스템, 예를 들어, 모바일 전화, 오디오 플레이어, 비디오 플레이어, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 기계, 또는 홈 오토메이션 제어기 또는 가정용 기기에서 구현될 수 있다. 그러나, 일 실시형태를 용이하게 설명하기 위해, 스마트폰에서 구현되는 예시적인 예가 설명될 것이다.
도 1은 주변 소리를 탐지하기 위한 마이크로폰(12, 12a, 및 12b)을 갖는 스마트폰(10)을 도시한다. 이 예에서, 마이크로폰(12)은 물론 스마트폰(10)을 잡고 있는 사용자의 음성을 탐지하는 데 사용되는 반면, 마이크로폰(12a, 12b)은 스마트폰(10)의 측면 상부 부분에 제공되고, 이에 도 1에서는 명확히 보이지 않는다.
스마트폰(10)은 본 명세서에 설명된 방법이 수행될 수 있는 전자 디바이스의 일례일 뿐이다. 방법은 태블릿 또는 랩톱 컴퓨터, 게임 콘솔, 홈 제어 시스템, 홈 엔터테인먼트 시스템, 차량 내 엔터테인먼트 시스템 또는 가정용 기기와 같은 다른 휴대용 전자 디바이스에서 유사하게 수행될 수 있다.
도 2는 스마트폰(10)의 형태를 도시한 개략도이다.
구체적으로, 도 2는 스마트폰(10)의 다양한 상호 연결된 구성 요소를 도시한다. 스마트폰(10)은 실제로 많은 다른 구성 요소를 포함할 것이지만, 이하의 설명은 본 발명의 이해를 위해 충분한 것으로 이해된다.
따라서, 도 2는 위에서 언급한 마이크로폰(12)을 도시한다. 특정 실시형태에서, 스마트폰(10)에는 다수의 마이크로폰(12, 12a, 12b 등)이 제공된다.
도 2는 또한 메모리(14)를 도시하고, 이 메모리는 실제로 단일 구성 요소 또는 다중 구성 요소로서 제공될 수 있다. 메모리(14)는 데이터 및 프로그램 명령어를 저장하기 위해 제공된다.
도 2는 또한 다시 실제로 단일 구성 요소 또는 다중 구성 요소로서 제공될 수 있는 프로세서(16)를 도시한다. 예를 들어, 프로세서(16)의 하나의 구성 요소는 스마트폰(10)의 애플리케이션 프로세서일 수 있다.
도 2는 또한 스마트폰(10)이 외부 네트워크와 통신할 수 있도록 제공되는 트랜시버(18)를 도시한다. 예를 들어, 트랜시버(18)는 WiFi 근거리 통신망 또는 셀룰러 네트워크를 통해 인터넷 연결을 수립하기 위한 회로부를 포함할 수 있다.
도 2는 또한 필요에 따라 마이크로폰(12)에 의해 탐지된 오디오 신호에 동작을 수행하기 위한 오디오 처리 회로부(20)를 도시한다. 예를 들어, 오디오 처리 회로부(20)는 오디오 신호를 필터링하거나 다른 신호 처리 동작을 수행할 수 있다.
도 2는 또한 적어도 하나의 센서(22)를 도시한다. 본 발명의 실시형태에서, 센서는 자기장을 탐지하기 위한 자기장 센서이다. 예를 들어, 센서(22)는 3개의 직교 방향의 자기장의 강도의 개별 측정값을 제공할 수 있는 홀 효과 센서(Hall effect sensor)일 수 있다. 사용될 수 있는 센서의 추가 예는 폰의 배향을 결정하도록 동작할 수 있는 자이로 센서, 가속도계 또는 소프트웨어 기반 센서를 포함할 수 있으며, 이러한 소프트웨어 기반 센서는 애플사에서 제공하는 FaceTimeTM 시스템과 같은 소프트웨어 프로그램과 결합하여 동작할 수 있다.
이 실시형태에서, 스마트폰(10)에는 음성 생체 인식 기능 및 제어 기능이 제공된다. 따라서, 스마트폰(10)은 등록된 사용자로부터 발화된 명령에 응답하여 다양한 기능을 수행할 수 있다. 생체 인식 기능은 등록된 사용자의 발화된 명령과, 다른 사람이 발화한 동일한 명령 간을 구별할 수 있다. 따라서, 본 발명의 특정 실시형태는 발화된 명령을 수행하도록 의도된 디바이스에서 음성 생체 인식 기능을 수행하는 일종의 음성 동작 가능성을 갖는 스마트폰 또는 다른 휴대용 전자 디바이스, 예를 들어, 태블릿 또는 랩톱 컴퓨터, 게임 콘솔, 홈 제어 시스템, 홈 엔터테인먼트 시스템, 차량 내 엔터테인먼트 시스템, 가정용 기기 등의 동작에 관한 것이다. 특정 다른 실시형태는, 음성 생체 인식 기능을 스마트폰 또는 다른 디바이스에서 수행하고, 이후 음성 생체 인식 기능이 화자가 등록된 사용자임을 확인할 수 있는 경우 명령을 별도의 디바이스로 전송하는 시스템에 관한 것이다.
일부 실시형태에서, 음성 생체 인식 기능이 사용자 가까이에 위치된 스마트폰(10) 또는 다른 디바이스에서 수행되는 동안, 발화된 명령은 트랜시버(18)를 사용하여 발화된 명령의 의미를 결정하는 원격 음성 인식 시스템으로 전송된다. 예를 들어, 음성 인식 시스템은 클라우드 컴퓨팅 환경에서 하나 이상의 원격 서버에 위치될 수 있다. 발화된 명령의 의미에 기초한 신호는 스마트폰(10) 또는 다른 로컬 디바이스로 반환된다. 다른 실시형태에서, 음성 인식 시스템은 또한 스마트폰(10)에 제공된다.
음성 생체 인식 시스템을 속이려는 시도 중 하나는 소위 리플레이 또는 스푸핑 공격으로 등록된 사용자의 음성 레코딩을 리플레이하는 것이다.
도 3은 리플레이 공격이 수행되는 상황의 일례를 도시한다. 따라서, 도 3에서, 스마트폰(10)에는 음성 생체 인식 기능이 제공된다. 이 예에서, 스마트폰(10)은 적어도 일시적으로 다른 스마트폰(30)을 가진 공격자의 소유이다. 스마트폰(30)은 스마트폰(10)의 등록된 사용자의 음성을 레코딩하는 데 사용되었다. 스마트폰(30)은 스마트폰(10)의 마이크로폰 입력(12)에 근접하여, 등록된 사용자의 음성 레코딩이 재생된다. 음성 생체 인식 시스템이 탐지한 등록된 사용자의 음성이 레코딩된 것이라는 것을 탐지할 수 없는 경우, 공격자는 등록된 사용자에 의해서만 액세스할 수 있도록 의도된 하나 이상의 서비스에 액세스할 수 있다.
스마트폰(30)과 같은 스마트폰에는 일반적으로 크기 제약으로 인해 상대적으로 낮은 품질의 라우드스피커가 제공되는 것으로 알려져 있다. 따라서, 이러한 라우드스피커를 통해 재생되는 등록된 사용자의 음성 레코딩은 사용자의 음성과 완벽하게 일치하는 것은 아니며, 이 사실을 사용하면 리플레이 공격을 식별할 수 있다. 예를 들어, 라우드스피커는 특정 주파수 특성을 가질 수 있으며, 이러한 주파수 특성이 음성 생체 인식 시스템에 의해 수신되는 음성 신호에서 탐지될 수 있다면 음성 신호가 리플레이 공격의 결과인 것으로 간주될 수 있다.
예를 들어, 하부 임계 주파수 이하의 주파수에서, 저음(bass) 응답이 라우드스피커 진동판(diaphragm)의 크기에 의해 제한되기 때문에 라우드스피커는 저주파 롤오프(roll-off)를 겪을 수 있다. 하부 임계 주파수는 200Hz일 수 있다. 다른 예에서, 상부 임계 주파수 초과의 주파수에서 라우드스피커는 고주파 롤오프를 겪을 수 있다. 우수한 품질의 오디오 레코딩 장비, 증폭기, 라우드스피커 등은 가청 주파수 범위(예를 들어, 최대 약 20kHz)에서 매우 높은 충실도를 제공하도록 설계되었지만, 고품질 오디오 시스템도 일반적으로 약 20kHz 초과의 주파수 응답에서 높은 감쇠를 나타낸다.
보통 사람은 이 주파수 범위의 소리를 인식할 수 없어서, 시스템 설계자가 이러한 소리를 고음질로 레코딩하고 리플레이하는 것은 일반적으로 가치가 없다.
이러한 효과의 크기는 라우드스피커의 품질에 의해 결정된다. 예를 들어, 고품질 라우드스피커에서 하부 임계 주파수와 상부 임계 주파수는 일반적으로 사람이 들을 수 있는 주파수 범위 내에서 최소한의 저주파 롤오프 또는 고주파 롤오프가 존재하도록 이루어져야 한다.
그러나, 크기와 비용의 제약으로 인해 스마트폰(30)과 같은 스마트폰에서 제공되는 것과 같은 상업적으로 이용 가능한 많은 라우드스피커는 어느 정도 이러한 효과를 겪고 있음을 의미한다.
따라서, 라우드스피커는 초음파 및/또는 근 초음파 주파수를 잘 재현하지 못할 수 있다. 이러한 상황에서, 탐지된 음성 신호의 초음파 및/또는 근 초음파 주파수 성분이 "일반적인" 음성에 대해 예상될 수 있는 전력 레벨에 있지 않은 경우, 이는 탐지된 음성 신호가 리플레이 공격의 결과임을 나타낼 수 있다.
그러나, 모든 음성이 동일한 레벨의 초음파 및/또는 근 초음파 주파수 성분을 포함하는 것은 아니다. 예를 들어, 마찰음 및 파열음과 같은 일부 자음 그룹은 상대적으로 높은 레벨의 초음파 및 근 초음파 주파수를 포함한다. 탐지된 음성 신호가 초음파 및/또는 근 초음파 주파수의 상대적으로 큰 성분을 포함하는 이와 같은 음향 등급(또는 등급들)에서 일반적인 음성의 양보다 더 높은 양의 음성을 포함하는 음성과 관련된 경우, 초음파 및/또는 근 초음파 주파수 성분의 레벨을 감소시키는 라우드스피커를 통한 리플레이 공격의 결과, 탐지된 음성 신호의 초음파 및/또는 근 초음파 주파수는 "일반적인" 음성에서 이러한 주파수에서 제외될 수 있는 전력 레벨과 유사한 전력 레벨에 여전히 존재할 수 있다. "일반적인" 음성에서 이러한 주파수는 제외된다. 따라서, 이러한 상황에서, 시스템은 음성 신호가 리플레이 공격의 결과일 수 있다는 것을 인식하지 못할 수 있다.
탐지된 음성 신호의 음향 등급 및 상기 음향 등급의 예상된 주파수 특성이 결정될 수 있다면, 그 후, 탐지된 음성 신호의 주파수 특성은 탐지된 신호가 리플레이 공격의 결과일 수 있는지 여부를 보다 확실하게 결정하는 데 사용될 수 있다.
도 4는 음성 생체 인식 시스템의 기능 블록을 설명하는 블록도이고, 도 5는 음성 생체 인식 시스템에서 리플레이 공격을 탐지하는 방법을 설명하는 흐름도이다.
도 4에 도시된 바와 같이, 마이크로폰(12)(예를 들어 스마트폰(10)의 마이크로폰 중 하나)이 소리를 탐지하고, 이것은 초기 처리 블록(40)으로 전달된다. 마이크로폰(12)은 가청음 및 초음파 범위의 소리를 탐지할 수 있다. 본 명세서에 사용된 "초음파"(및 "초음파")라는 용어는 가청 주파수 범위의 상부 부분 및 가청 주파수 범위를 초과하는 소리를 의미한다. 따라서 "초음파"(및 "초음파")라는 용어는 약 15kHz 초과의 주파수의 소리를 의미한다.
초기 처리 블록(40)은 예를 들어 아날로그 마이크로폰으로부터 수신된 신호를 디지털 형태로 변환하기 위한 아날로그-디지털 변환기를 포함할 수 있고, 신호를 저장하기 위한 버퍼를 포함할 수도 있다. 아날로그-디지털 변환은 수신된 신호를 샘플링 속도로 샘플링하는 것을 포함한다. 샘플링 속도는 관심 있는 임의의 주파수 성분이 디지털 신호에 유지될 수 있을 만큼 충분히 높게 선택되어야 한다. 예를 들어, 아래에서 더 자세히 설명되는 바와 같이, 본 발명의 일부 실시형태는 예를 들어 20kHz 내지 30kHz의 영역에서 수신된 신호의 초음파 성분을 보는 것을 포함한다. 나이퀴스트 샘플링 정리로 잘 알려진 바와 같이, 디지털 신호의 샘플링 속도는 신호의 가장 높은 주파수 성분의 최소 두 배가 되어야 한다. 따라서, 최대 30kHz의 주파수의 성분을 포함하는 신호를 적절히 샘플링하기 위해 샘플링 속도는 적어도 60kHz일 필요가 있다.
일반적인 스마트폰은 (96kHz 대역폭을 제공할 수 있을 만큼 충분히 높은) 최대 192kHz의 샘플링 속도로 샘플링할 수 있고, 따라서 샘플링 속도는 의도된 주파수 성분을 수용하는 임의의 적절한 값으로 설정될 수 있다.
종래와 같이, 신호는 예를 들어 10ms 내지 100ms 지속 시간의 프레임으로 분할될 수 있다.
따라서, 도 5의 방법의 단계(60)에서, 음성을 나타내는 오디오 신호가 수신된다.
음성을 나타내는 수신된 오디오 신호는 스펙트럼 추출 블록(42)으로 전달될 수 있다. 스펙트럼 추출 블록(42)은 수신된 오디오 신호의 스펙트럼을 획득하도록 구성될 수 있다. 일부 예에서, 스펙트럼 추출 블록(42)은 수신된 오디오 신호의 전력 스펙트럼을 획득하도록 구성될 수 있는 반면, 일부 다른 예에서, 스펙트럼 추출 블록(42)은 수신된 오디오 신호의 에너지 스펙트럼을 획득하도록 구성될 수 있다.
일부 예에서, 스펙트럼 추출 블록(42)은 수신된 오디오 신호에 대해 고속 푸리에 변환을 수행하도록 구성될 수 있다. 고속 푸리에 변환의 결과는 서로 다른 주파수의 신호에 존재하는 전력 또는 에너지를 나타낸다.
다른 예에서, 스펙트럼 추출 블록(42)은 음성을 나타내는 수신된 오디오 신호에 여러 대역 통과 필터를 적용하도록 구성될 수 있다. 각 대역 통과 필터는 수신된 오디오 신호의 특정 주파수 대역 내의 신호만이 통과하도록 허용할 수 있다.
음성을 나타내는 수신된 오디오 신호 및 스펙트럼 추출 블록(42)에 의해 획득된 스펙트럼은, 채널/잡음 보상 블록(44)으로 전달될 수 있다. 이해되는 바와 같이, 음성을 나타내는 수신된 오디오 신호는 채널의 속성에 의해 영향을 받을 수 있다(이는 사용자의 음성과 마이크로폰에 의해 생성된 음성 신호 간의 차이를 생성하는 임의의 요소가 변하는 것을 의미하는 것으로 이해된다). 음성을 나타내는 수신된 오디오 신호는 또한 잡음의 영향을 받을 수 있다. 채널/잡음 보상 블록(44)은 음성을 나타내는 수신된 오디오 신호로부터 채널 및/또는 잡음의 효과를 제거하여 음성을 나타내는 깨끗한 수신된 오디오 신호를 획득하도록 구성될 수 있다.
채널/잡음 보상 블록(44)의 예시적인 실시형태가 아래에서 더 상세히 설명된다.
특히, 도 6은 영국 특허 출원 번호 1719734.4에 더 자세히 설명된 채널/잡음 보상 시스템을 도시한다.
도 6에서, 입력(70)에서 수신된 신호는 유성/무성 탐지 블록(72)으로 전달되고, 이 탐지 블록은 수신된 신호가 유성음을 나타내는 시기와, 무성음을 나타내는 시기를 결정한다. 따라서 유성/무성 탐지 블록(72)은 유성음을 나타내는 오디오 신호의 제1 성분(Sv) 및 무성음을 나타내는 제2 성분(Su)을 출력한다. 보다 구체적으로, 일부 실시형태에서, 유성음을 나타내는 오디오 신호의 제1 성분(Sv) 및 무성음을 나타내는 제2 성분(Su)은 음성의 유성음 및 무성음 성분의 평균 스펙트럼이다. 평균 스펙트럼이란 다수의 프레임에 걸쳐 얻어지고 평균화된 음성의 스펙트럼을 의미한다.
입력(70)에서 수신된 신호는 또한 화자 인식 블록(74)으로 전달되고, 이 화자 인식 블록은 복수의 등록된 화자 중에서 화자를 식별하기 위해 음성 생체 인식 프로세스를 수행한다. 화자 인식 시스템에 등록하는 과정은 일반적으로 화자가 음성 샘플을 제공하고, 이 음성 샘플로부터 특정 특징을 추출하고 추출된 특징을 사용하여 화자의 음성 모델을 형성하는 것을 포함한다. 사용 시 대응하는 특징은 음성 샘플로부터 추출되고, 이들 특징은 화자가 이전에 등록된 화자일 가능성을 나타내는 척도를 얻기 위해 이전에 얻어진 모델과 비교된다.
도 6에 도시된 시스템에서, 하나 이상의 화자 모델은 예를 들어 데이터베이스(76)에 저장된다. 화자 인식 블록(74)의 출력에 기초하여, 하나 이상의 화자 모델이 선택된다. 이 실시형태에서, 각 화자 모델은 등록된 사용자의 유성음 및 무성음의 개별 모델을 포함한다. 보다 구체적으로, 등록된 사용자의 유성음 모델 및 무성음 모델 각각은 다수의 주파수에 대응하는 진폭 값을 포함한다.
따라서 유성음의 모델은 Mv로 표시될 수 있으며, 여기서 Mv는 선택된 주파수 각각에서 하나의 진폭 값을 포함하는 벡터를 나타내는 반면, 무성음의 모델은 Mu로 표시될 수 있으며, 여기서 Mu는 선택된 주파수 각각에서 하나의 진폭 값을 포함하는 벡터를 나타낸다.
이해되는 바와 같이, 사용자의 음성을 포함하는 수신된 신호는 채널의 속성의 영향을 받을 수 있고, 이는 사용자의 음성과 마이크로폰에서 생성된 음성 신호 사이의 차이를 생성하는 임의의 요소가 변하는 것을 의미하는 것으로 이해되고, 수신된 신호는 또한 잡음의 영향을 받을 수 있다.
따라서, 수신된 신호를 평균화하여 수신된 음성의 제1 및 제2 성분을 형성하는 기간 동안 채널과 잡음이 일정하다고 가정하면 이러한 제1 및 제2 성분은 다음과 같이 표현될 수 있다:
Sv = αMv + n, 및
Su = αMu + n,
여기서
α는 본 명세서에서 채널이라고 지칭되는 곱셈 방해 성분의 주파수 스펙트럼을 나타내고,
n은 본 명세서에서 잡음이라고 지칭되는 덧셈 방해 성분의 주파수 스펙트럼을 나타낸다.
따라서, 측정값(Sv 및 Su) 및 모델(Mv 및 Mu)을 사용하면 비교 블록(78)에서 2개의 미지수(α 및 n)에 대해 이들 2개의 수식을 풀릴 수 있다.
따라서 예시적인 설명을 위해,
완전함을 위해, 복수의 주파수에서 이루어진 스펙트럼의 측정값을 사용하여, 이 두 수식은 각 주파수에서 효과적으로 풀린다는 점에 유의해야 한다.
대안적으로, f개의 다른 주파수에서 이루어진 측정값을 사용하면 수식 Sv = αMv + n, 및 Su = αMu + n은 각각 풀어야 할 f개의 다른 수식으로 간주될 수 있다.
이 경우, 수식을 풀고, 저역 통과 필터 또는 사비츠키-골레이(Savitsky-Golay) 필터와 같은 통계 필터를 결과에 적용하여 채널 및 잡음 특성의 저역 통과 필터링 버전을 얻는 것이 유용할 수 있다.
대안적인 예로서, 최소 제곱법을 사용하여 2f개의 다른 수식에 대한 해를 얻을 수 있다.
따라서, 오디오 신호에 영향을 미치는 잡음 및/또는 채널에 대한 정보가 획득된다.
채널/잡음 보상 블록(44)의 하나의 가능한 실시형태가 위에서 설명되었지만, 채널/잡음 보상 블록(44)은 수신된 오디오 신호로부터 채널 및/또는 잡음의 효과를 제거하기 위해 임의의 적절한 방법을 수행하도록 구성될 수 있는 것으로 이해된다.
또한, 도 4에 도시된 바와 같은 시스템이 채널/잡음 보상 블록(44)을 포함하지만(그리고 이것은 아래에 설명된 대로 이후에 사용되는 채널 및/또는 잡음의 효과를 제거한 후의 오디오 신호이다), 이것은 선택 사항이며, 수신된 오디오 신호는 수신된 오디오 신호로부터 채널 및/또는 잡음의 효과를 제거하지 않고 사용될 수 있는 것으로 이해된다. 특히, 이것은 채널이 거의 이상적인 것으로 알려진 상황에서 수행되거나, 또는 시스템이 낮은 레벨의 배경 잡음이 있는 환경에 있는 것으로 알려진 상황에서 수행될 수 있다.
채널 및/또는 잡음의 효과는 입력 신호로부터 제거될 수 있고, 채널/잡음 보상 블록(44)의 출력은 식별 블록(46)으로 전달될 수 있다. 식별 블록(46)은 수신된 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별하도록 구성될 수 있다. 일반적으로, 이것은 단순히 사람의 음성의 존재를 탐지하는 것 이상을 포함하지만 특정 음성 콘텐츠를 식별하는 것을 의미한다. 일부 실시형태에서, 식별 블록(46)은 수신된 오디오 신호에서 적어도 하나의 테스트 음향 등급을 식별하도록 구성되며, 여기서 음향 등급은 마찰음, 모음 등과 같은 동일한 넓은 음소 등급에 속하는 음소 세트이다. 즉, 식별 블록(46)은 하나 이상의 특정 테스트 음향 등급을 포함하는 수신된 오디오 신호의 부분을 식별하도록 구성될 수 있다.
적어도 하나의 테스트 음향 등급은 특정 스펙트럼 특성을 포함하는 음향 등급일 수 있다. 다시 말해, 적어도 하나의 테스트 음향 등급은 특정 주파수 범위에 걸쳐 특정 전력 분포를 제공하도록 선택될 수 있다. 예를 들어, 적어도 하나의 음향 등급은 상대적으로 높은 레벨의 초음파 및/또는 근 초음파 주파수를 포함할 수 있다.
일부 예에서, 적어도 하나의 테스트 음향 등급은 하나 이상의 특정 음소를 포함할 수 있다. 일부 예에서, 테스트 음향 등급은 모음 세트를 포함할 수 있다. 다른 예에서, 테스트 음향 등급은 자음 세트를 포함할 수 있다. 예를 들어, 적어도 하나의 테스트 음향 등급은 마찰음을 포함할 수 있고, 보다 구체적으로 치찰음을 포함할 수 있다. 다른 예에서, 적어도 하나의 테스트 음향 등급은 파열음을 포함할 수 있다. 인간의 성대에서 발생하는 오디오 신호는 특히 마찰음과 치찰음의 음소를 표현할 때 초음파 영역, 약 20kHz 초과, 및 심지어 30kHz 초과의 상당한 에너지를 포함한다는 것이 주목된다.
식별 블록(46)은 적어도 하나의 테스트 음향 등급을 나타내는 오디오 신호의 부분을 식별하도록 구성될 수 있다. 일부 예에서, 식별 블록(46)은 복수의 미리 선택된 테스트 음향 등급 중에서 하나의 테스트 음향 등급을 나타내는 오디오 신호의 부분을 식별하도록 구성될 수 있다. 일부 예에서, 식별 블록(46)은 수신된 오디오 신호가 프레임 단위로 대응하는 테스트 음향 등급을 결정할 수 있다. 예를 들어, 식별 블록(46)은, 수신된 프레임의 제1 그룹이 마찰음 등급의 음소에 대응하고, 수신된 프레임의 제2 그룹이 파열음 등급의 음소에 대응한다고 결정할 수 있다.
음향 등급의 식별은 예를 들어 훈련된 신경망에 의해 수행될 수 있다. 대안적으로, 수신된 어구에 포함된 음소의 식별은 은닉된 마르코브 모델(Hidden Markov Model)과 같은 잘 알려진 기술로 수행될 수 있다.
일부 예에서, 식별 블록(46)은 수신된 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별할 수 있는 자동 음성 인식 블록을 포함하거나 이와 관련된다. 음성 콘텐츠를 식별한 후, 식별 블록(46)은 예를 들어 하나 이상의 특정 테스트 음향 등급을 포함하는 수신된 오디오 신호의 부분을 식별할 수 있다.
일부 예에서, 식별 블록(46)은 가장 높은 에너지를 갖는 프레임이 마찰 음소와 연관되는 근 초음파 주파수의 에너지를 프레임별로 추정하여 어구에서 마찰 음소가 발생하는 시간 맵을 효과적으로 생성하는 것을 포함한다. 수신된 오디오 신호와 관련된 이 시간 맵은 데이터베이스(48)에 이전에 계산되고 저장된 유사한 맵에 정렬될 수 있다. 텍스트 의존 음성 생체 인식에서 음소의 예상된 시간 매핑은 사용자가 미리 정해진 패스 어구(pass phrase)를 발화하여 생체 인식 음성 지문을 생성할 때 등록 단계 동안 계산될 수 있다. 텍스트 독립 음성 생체 인식에서 매핑은 인증 시도 동안 수신된 오디오에 적용된 음성 디코더(또는 음향 등급 식별자)를 통해 얻어질 수 있다.
음소의 예상된 및 실제 시간 매핑 간의 정렬은 예를 들어 비터비(Viterbi) 알고리즘 또는 동적 시간 왜곡(Dynamic Time Warping)과 같은 기술을 사용하여 수행될 수 있다.
이렇게 정렬된 신호 부분의 스펙트럼은 대응하는 음향 등급의 스펙트럼과 비교할 수 있다. 또한, 이러한 정렬 기술은 수신된 신호에서 마찰음의 시간적 맵과 예상된 것 사이의 거리의 척도를 제공할 수 있다. 수신된 신호의 초음파 성분이 예상된 음성의 고주파 음성 콘텐츠와 일치하지 않는다는 것을 의미하는, 주어진 임계 값을 초과하는 거리는 스푸핑 공격을 나타내는 것일 수 있다.
예를 들어, 방법의 일부 실시형태에서, 스마트폰, 스마트 화자 등에 적용될 때, 스마트폰 또는 스마트 화자는 등록된 사용자가 미리 정해진 패스 어구를 발화하여 활성화되므로 디바이스는 패스 어구를 포함하는 오디오 신호를 인식할 수 있다. 예를 들어, 패스 어구는 "Hi 어시스턴트(assistant)"일 수 있다.
"Hi"라는 단어에서 모음 소리는 많은 모음보다 더 높은 주파수 성분을 자연스럽게 포함한다. 유사하게, 치찰음 자음은 상대적으로 많은 양의 고주파 성분을 포함한다. 그 결과, 식별 블록(46)은 패스 어구를 포함하는 오디오 신호의 부분, 즉 높은 비율의 고주파 성분을 갖는 음소를 포함하는 오디오 신호의 프레임을 결정할 수 있다. 실제로, 패스 어구 내에서 마찰음 및/또는 치찰음 음소의 시간적 위치 맵이 생성될 수 있다. 따라서, 오디오 신호의 이러한 부분에서 특정 음성 내용이 식별될 수 있다.
예를 들어 패스 어구가 오디오 신호의 1초를 차지하는 경우, "Hi"라는 단어에서 모음 소리를 포함하는 프레임은 오디오 신호에서 50 밀리초 내지 150 밀리초 사이의 오디오 신호 부분에 나타날 수 있다. 유사하게, "어시스턴트"라는 단어에서 치찰음 자음은 오디오 신호에서 550 밀리초 내지 850 밀리초 사이의 오디오 신호 부분에 나타날 수 있다.
따라서 이러한 시간 간격 동안 나타나는 프레임이 식별될 수 있다.
따라서, 도 5의 방법의 단계(62)에서, 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠가 식별된다.
도 4에 도시된 예에서, 채널/잡음 보상 블록(44)의 출력은 식별 블록(46)으로 전달된다. 그러나, 음성을 나타내는 수신된 오디오 신호는 채널 및/또는 잡음의 효과를 제거하기 위해 이전에 어떠한 처리도 수행됨이 없이 식별 블록(46)으로 전달될 수 있는 것으로 이해된다. 이것은 채널이 거의 이상적인 것으로 알려진 상황에서 발생할 수 있거나, 또는 이것은 시스템이 매우 낮은 레벨의 배경 잡음이 있는 환경에 있는 것으로 알려진 상황에서 발생할 수 있다.
도 4에 도시된 예에서, 추출된 스펙트럼은 식별 블록(46)으로 전달된다. 그러나, 식별 블록(46)은 처리되지 않은 형태 또는 시간 영역(주파수 영역과 반대로)에 남아 있는 형태의 음성을 나타내는 수신된 오디오 신호를 수신하고, 수신된 오디오 신호의 이러한 형태로부터 (예를 들어, 적어도 하나의 음향 등급을 식별하는) 오디오 신호의 적어도 부분에 존재하는 음성 콘텐츠를 식별할 수 있는 것으로 이해된다.
적절히 훈련된 신경망이 이 식별을 위해 사용될 수 있다.
음성 콘텐츠를 식별하면, 특정 음성 콘텐츠가 식별된 오디오 신호의 각 부분의 주파수 스펙트럼에 대한 정보가 획득된다. 예를 들어, 스펙트럼 추출 블록(42)은 수신된 전체 오디오 신호의 스펙트럼을 획득하도록 구성될 수 있는 반면, 제2 스펙트럼 추출 블록(47)은 관심 있는 특정 음성 콘텐츠가 식별된 수신된 오디오 신호의 부분의 스펙트럼을 획득하도록 구성될 수 있다. 예를 들어, 위에서 설명한 바와 같이 고주파 성분의 비율이 높은 특정 음성 콘텐츠를 나타내는 신호 부분이 관심 대상으로 간주될 수 있고, 제2 스펙트럼 추출 블록(47)은 음성 콘텐츠가 식별된 수신된 오디오의 프레임의 스펙트럼을 획득하도록 구성될 수 있다.
식별 블록(46)은 식별된 음성 콘텐츠의 표시를 데이터베이스(48)로 전송할 수 있다. 데이터베이스(48)는 식별된 음성 콘텐츠의 표시를 수신할 수 있고, 오디오 신호의 예상된 스펙트럼에 관한 대응하는 저장된 정보를 제공할 수 있다. 예를 들어, 관련 음성 콘텐츠가 하나 이상의 특정 음향 등급, 예를 들어, 하나 이상의 음소를 포함하는 경우, 데이터베이스(48)는 각 음향 등급에 대해 이 음향 등급에 대응하는 오디오 신호의 예상된 전력 스펙트럼을 저장하도록 구성될 수 있다. 그 후 데이터베이스(48)는 각 음향 등급에 대해 이 음향 등급에 대응하는 오디오 신호의 예상된 에너지 스펙트럼을 검색하도록 구성될 수 있다.
따라서, 도 5의 방법의 단계(66)에서, 음성 콘텐츠가 식별된 오디오 신호의 각 부분에 대해, 오디오 신호의 대응하는 부분의 예상된 주파수 스펙트럼에 관한 정보가 검색된다.
데이터베이스(48)는 음성 콘텐츠가 식별된 오디오 신호의 각 부분에 대해(즉, 예를 들어, 각각의 식별된 테스트 음향 등급에 대해), 오디오 신호의 예상된 스펙트럼에 관한 검색된 정보를 비교 블록(50)으로 전송할 수 있다.
비교 블록(50)은 또한 제2 스펙트럼 추출 블록(47)으로부터 동일한 음성 콘텐츠가 식별된 수신된 오디오 신호의 프레임의 스펙트럼(예를 들어, 적어도 하나의 테스트 음향 등급을 포함하는 프레임의 스펙트럼 또는 각 스펙트럼)을 수신할 수 있다.
비교 블록(50)은 그 후 (적어도 하나의 테스트 음향 등급을 나타내는) 오디오 신호의 수신된 식별된 부분을 대응하는 테스트 음향 등급에 대해 수신된 각각의 검색된 정보와 비교할 수 있다.
일부 예에서, 비교 블록(50)은 오디오 신호의 식별된 부분의 성분을 5kHz 내지 20kHz 범위 또는 16kHz 이상의 범위의 주파수 대역에서 대응하는 테스트 음향 등급에 대해 각각 검색된 정보와 비교할 수 있다. 위에서 설명한 바와 같이 일부 라우드스피커는 초음파 및/또는 근 초음파 주파수를 잘 재현하지 못할 수 있다. 그 결과, 상대적으로 높은 레벨의 초음파 및/또는 근 초음파 주파수를 포함하는 테스트 음향 등급을 포함하는 수신된 오디오 신호는 이러한 주파수(예를 들어, 5kHz 내지 20kHz 범위의 주파수 대역, 또는 16kHz 초과 범위의 주파수 대역)에서 라우드스피커에 의해 제대로 재현되지 못할 수 있다. 따라서, 테스트 음향 등급을 나타내는 수신된 오디오 신호의 스펙트럼은 테스트 음향 등급을 나타내는 오디오 신호의 예상된 스펙트럼과 크게 다를 수 있으며, 테스트 음향 등급은 수신된 오디오 신호가 리플레이 공격의 결과인 경우 비교적 높은 레벨의 초음파 및/또는 근 초음파 주파수를 포함한다. 따라서 이 주파수 대역을 사용하여 리플레이 공격을 탐지하기 위해서는, 테스트 음향 등급이 상대적으로 높은 레벨의 초음파 및/또는 근 초음파 주파수를 포함하는 것이 바람직하며, 적절한 음향 등급은 예를 들어 치찰음 및 파열음과 같은 마찰음일 수 있다.
일부 예에서, 비교 블록(50)은 오디오 신호의 식별된 부분의 성분을 20Hz 내지 200Hz의 주파수 대역에서 대응하는 테스트 음향 등급에 대한 각각의 검색된 정보와 비교할 수 있다. 일부 라우드스피커는 낮은 주파수(예를 들어, 20Hz 내지 200Hz 대역의 주파수)를 잘 재현하지 못할 수 있다. 그 결과, 상대적으로 높은 레벨의 이러한 주파수를 포함하는 테스트 음향 등급은 이러한 주파수에서 라우드스피커에 의해 제대로 재현되지 못할 가능성이 있다. 따라서, 테스트 음향 등급을 나타내는 수신된 오디오 신호의 스펙트럼은 테스트 음향 등급을 나타내는 오디오 신호의 예상된 스펙트럼과 크게 다를 수 있으며, 여기서 테스트 음향 등급은 수신된 오디오 신호가 리플레이 공격의 결과인 경우 상대적으로 높은 레벨의 낮은 저주파 성분을 포함한다. 따라서 이 주파수 대역을 사용하여 리플레이 공격을 탐지하기 위해서는, 테스트 음향 등급이 20Hz 내지 200Hz 대역에서 상대적으로 높은 레벨의 주파수를 포함하는 것이 바람직하며, 적절한 음향 등급은 예를 들어 특정 모음 소리일 수 있다. 예를 들어, 국제 음성 알파벳(International Phonetic Alphabet)에서 으로 각각 표현된 후설 원순 고모음(high back rounded vowel) 및 후설 원순 근 고모음(near-high back rounded vowel)은 이러한 높은 레벨의 저주파 성분을 가진다.
국제 음성 알파벳에서 <i>로 표현된 전설 비원순 고모음(high front unrounded vowel)은 일반적으로 상대적으로 낮은 제1 포먼트 주파수(formant frequency)(F1)와 상대적으로 높은 제2 포먼트 주파수(F2)를 가지고 있고, 따라서 이 모음 소리를 포함하는 음성 부분은 20Hz 내지 200Hz 대역의 상대적으로 높은 레벨의 저주파 및 5kHz 내지 20kHz 대역의 높은 주파수를 가진다. 따라서 이 모음 소리를 포함하는 음성의 일부가 식별되면, 이러한 부분의 주파수 스펙트럼을 20Hz 내지 200Hz 범위와 5kHz 내지 20kHz 범위 모두에서 각 주파수 대역의 예상된 주파수 스펙트럼과 비교하는 것이 유용하다.
일부 예에서, 비교 블록(50)은 오디오 신호의 식별된 부분의 스펙트럼을 대응하는 테스트 음향 등급에 대해 검색된 예상된 스펙트럼과 비교할 수 있다.
일례에서, 비교 블록(50)은 오디오 신호의 식별된 부분을 대응하는 테스트 음향 등급에 대한 각각의 검색된 스펙트럼과 비교할 수 있으며, 여기서 오디오 신호의 상기 식별된 부분은 스펙트럼 블록(42)에서 수신된 오디오 신호에 대해 수행된 FFT로부터 획득되었다. 다른 예에서, 비교 블록(50)은 오디오 신호의 식별된 부분을 대응하는 테스트 음향 등급에 대한 각각의 검색된 스펙트럼과 비교할 수 있고, 여기서 오디오 신호의 상기 식별된 부분은 스펙트럼 블록(42)에 의해 생성된 대역 통과 오디오 신호로부터 획득되었다.
일부 예에서, 비교 블록(50)은 오디오 신호의 식별된 부분들의 적어도 하나의 주파수 대역에서의 전력 레벨을 오디오 신호의 예상된 스펙트럼의 적어도 하나의 대응하는 주파수 대역에서의 전력 레벨과 비교할 수 있다. 이 예에서, 오디오 신호의 식별된 부분과 대응하는 테스트 음향 등급에 대한 각각의 검색된 정보 사이의 차이의 측정값은 전력의 차이를 포함할 수 있다.
위에서 설명한 바와 같이, 특정 주파수에서 (또는 특정 주파수 범위 내에서) 오디오 신호의 식별된 부분의 전력 레벨의 차이는, 이 주파수에서 (또는 이 주파수 범위 내에서) 대응하는 테스트 음향 등급에 대해 각각의 검색된 정보의 전력 레벨과 비교될 때, 오디오 신호가 리플레이 공격으로부터 발생한 것일 수 있음을 나타낼 수 있다.
일부 예에서, 비교 블록은 리플레이 공격에 사용되는 라우드스피커가 불량한 주파수 응답을 가질 것이라고 가정될 수 있는 주파수 대역의 전력 레벨을 비교할 수 있다. 비교 블록(50)은 오디오 신호의 식별된 부분의 5kHz 내지 20kHz 범위의 주파수 대역의 전력 레벨을 오디오 신호의 예상된 스펙트럼의 5kHz 내지 20kHz 주파수 범위의 동일한 주파수 대역의 전력 레벨과 비교할 수 있다. 추가적으로 또는 대안적으로, 비교 블록(50)은 오디오 신호의 식별된 부분의 20Hz 내지 200Hz 범위의 주파수 대역의 전력 레벨을 오디오 신호의 예상된 스펙트럼의 20Hz 내지 200Hz 범위의 동일한 주파수 대역의 전력 레벨과 비교할 수 있다. 추가적으로 또는 대안적으로, 비교 블록(50)은 오디오 신호의 식별된 부분의 20kHz 내지 30kHz 범위의 주파수 대역의 전력 레벨을 오디오 신호의 예상된 스펙트럼의 20kHz 내지 30kHz 주파수 범위의 동일한 주파수 대역의 전력 레벨과 비교할 수 있다.
따라서, 도 5의 방법의 단계(68)에서, 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼이 각각의 예상된 주파수 스펙트럼과 비교된다.
비교 블록(50)에 의해 생성된 비교는 결정 블록(52)으로 전송될 수 있다. 결정 블록(52)은 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼과 각각의 예상된 주파수 스펙트럼 사이의 차이의 측정값이 임계 레벨을 초과하는지 여부를 결정할 수 있다. 차이의 측정값이 임계 레벨을 초과하는 경우, 결정 블록(52)은 오디오 신호가 리플레이 공격으로 인한 것일 수 있다고 결정할 수 있다.
따라서, 도 5의 방법의 단계(69)에서, 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼과 각각의 예상된 주파수 스펙트럼 사이의 차이의 측정값이 임계 레벨을 초과하는 경우, 오디오 신호는 리플레이 공격으로 인한 것일 수 있는 것으로 결정된다.
일부 상황에서, 방법의 단계(66)에서 특정 테스트 음향 등급을 나타내는 예상된 스펙트럼에 대한 정보를 검색하는 것이 바람직할 수 있으며, 여기서 이 정보는 (복수의 화자가 말한 테스트 음향 등급을 나타내는 스펙트럼을 얻는 것과 반대로) 개별 화자에 고유하다.
따라서, 일부 실시형태에서, 시스템은 수신된 오디오 신호에 대해 화자 식별 프로세스를 수행할 수 있다. 일부 예에서, 음성을 나타내는 수신된 오디오 신호는 데이터베이스(48)로부터 오디오 신호의 예상된 스펙트럼에 대한 정보를 검색하기 전에 화자 식별 프로세스를 거칠 수 있다. 화자 식별 프로세스는 도 5의 방법의 처음 두 단계 이전에 또는 이와 병렬로 수행될 수 있다. 화자 식별 방법은 이 기술 분야에 통상의 지식을 가진 자라면 잘 이해할 수 있을 것이다.
음성을 나타내는 수신된 오디오 신호를 생성한 화자를 식별한 후, 획득된 화자의 신원은 또한 데이터베이스(48)로 전달될 수 있다.
일부 예에서, 데이터베이스(48)에 저장된 각각의 음향 등급에 대응하는 예상된 스펙트럼은 대규모 화자 집단이 말한 음향 등급을 나타낼 수 있다. 그러나, 일부 예에서, 데이터베이스(48)에 저장된 각각의 음향 등급에 대응하는 예상된 스펙트럼은 특정 개인이 말한 음향 등급을 나타낼 수 있다. 상기 특정 개인은 화자 식별 프로세스에 의해 식별되었을 수 있다.
따라서, 각 테스트 음향 등급에 대해, 데이터베이스(48)는 상기 화자 식별 프로세스에 의해 식별된 화자에 대한 오디오 신호의 예상된 스펙트럼에 대한 정보를 검색할 수 있다.
예를 들어, 시스템에 등록된 복수의 사용자가 있을 수 있고, 이들 복수의 등록된 사용자 각각은 데이터베이스(48) 내에 저장된 음성에 대응하는 모델을 가질 수 있다. 등록된 각 사용자에 대해, 사용자의 대응하는 모델은 이 사용자에 대한 복수의 테스트 음향 등급에 대한 오디오 신호의 예상된 스펙트럼에 대한 정보를 포함할 수 있다.
시스템에 2명의 사용자가 등록되어 있는 예에서, 데이터베이스(48) 내에 저장된 각 테스트 음향 등급에 대한 2개의 예상된 스펙트럼에 대한 정보가 있을 수 있으며, 여기서 제1 예상된 스펙트럼은 제1 등록된 사용자에 대응하고, 제2 등록된 사용자는 제2 등록된 사용자에 대응한다. 화자 식별 프로세스는 2명의 등록된 사용자 중에서 음성을 나타내는 수신된 오디오 신호를 생성한 사용자를 식별할 수 있다. 화자의 신원은 식별된 화자에 대응하는 (오디오 신호에서 식별된 각 테스트 음향 등급에 대해) 예상된 스펙트럼에 대한 정보를 검색하기 위해 데이터베이스(48)에 의해 사용될 수 있다. 이 "화자별" 검색된 정보는 전술한 것과 실질적으로 동일한 방식으로 비교 블록(50)으로 전달되고 이 비교 블록에 의해 사용될 수 있다. 오디오 신호의 예상된 스펙트럼에 대해 검색된 정보는 "화자별"이므로, 오디오 신호의 식별된 부분과 대응하는 테스트 음향 등급에 대해 검색된 각 정보를 비교하는 것은 (비교되는 두 정보는 이제 이 화자별로 다르기 때문에) 더 정확할 가능성이 있다. 따라서, 오디오 신호가 리플레이 공격으로 인한 것일 수 있다는 결정이 결과적으로 더 정확할 것이다.
도 7, 도 8 및 도 9는 오디오 신호가 리플레이 공격으로 인한 것일 수 있는 여러 상황에서 오디오 신호의 식별된 부분을 대응하는 테스트 음향 등급에 대해 검색된 각 정보와 비교하는 예를 보여준다. 이후 예에서, 적어도 하나의 테스트 음향 등급을 나타내는 오디오 신호의 식별된 부분은 전력 스펙트럼이고, 대응하는 테스트 음향 등급에 대해 검색된 각각의 정보도 또는 전력 스펙트럼이다.
도 7, 도 8 및 도 9에서 수신된 신호의 식별된 스펙트럼은 실선으로 표시되고, 데이터베이스에서 검색된 예상된 스펙트럼은 파선으로 표시된다.
도 7에서, 특정 제1 주파수(f1로 표시)에서 식별된 스펙트럼(82)과 예상된 스펙트럼(84)은 실질적으로 유사한 전력 레벨(P1로 표시)을 갖는다는 것을 볼 수 있다. 주파수가 증가함에 따라 예상된 스펙트럼과 식별된 스펙트럼은 특정 제2 주파수(f2로 표시)에 도달할 때까지 실질적으로 유사한 전력 레벨을 계속 갖는다. 이 지점에서, 예상된 스펙트럼(84)은 제1 전력 레벨(P2로 표시)에 남아 있는 반면, 식별된 스펙트럼(82)의 전력 레벨은 다른 제2 전력 레벨(P3으로 표시)로 롤오프된다. 식별된 스펙트럼(82)에서는 볼 수 있지만 이 특정 음향 등급에 대해 예상된 스펙트럼에서는 볼 수 없는 더 높은 주파수에서의 전력 레벨에서의 이러한 롤오프는 음성을 나타내는 수신된 오디오 신호가 리플레이 공격으로 인한 것일 수 있다는 것을 나타낼 수 있다.
예를 들어, 음성을 나타내는 수신된 오디오 신호는 상부 차단 주파수 초과의 주파수에 대해 전력 레벨이 옥타브당 6dB와 같은 상대적으로 일정한 율로 감소하는 경우 리플레이 공격으로 인한 것일 수 있다고 결정될 수 있다. 상부 차단 주파수는 15kHz 내지 25kHz 범위에 있을 수 있다. 도 8에서, 특정 제1 주파수(f1로 표시)에서, 식별된 스펙트럼(86)과 예상된 스펙트럼(88)은 상당히 다른 전력 레벨을 갖는다는 것을 볼 수 있다. 식별된 스펙트럼(86)에 대해 f1에서 전력 레벨(P1로 표시)은 예상된 스펙트럼(88)에 대해 f1에서 전력 레벨(P3으로 표시)보다 상당히 더 낮다. 주파수가 증가함에 따라 식별된 스펙트럼의 전력 레벨은 제2 특정 주파수(f2로 표시)에 도달할 때까지 점진적으로 증가한다. 주파수(f2)에서, 식별된 스펙트럼(86)과 예상된 스펙트럼(88)(P2로 표시)의 전력 레벨은 실질적으로 동일하다. 식별된 스펙트럼에서는 볼 수 있지만 예상된 스펙트럼에서는 볼 수 없는, 주파수가 감소함에 따라 전력 레벨이 이렇게 "롤오프"하는 것은 음성을 나타내는 수신된 오디오 신호가 리플레이 공격으로 인한 것일 수 있다는 것을 나타낼 수 있다.
예를 들어, 하부 차단 주파수 미만의 주파수에 대해 전력 레벨이 옥타브당 6dB와 같은 상대적으로 일정한 율로 감소하는 경우 음성을 나타내는 수신된 오디오 신호가 리플레이 공격으로 인한 것일 수 있다고 결정될 수 있다. 하부 차단 주파수는 20Hz 내지 200Hz 범위에 있을 수 있다.
도 9에서, 특정 제1 주파수(f1로 표시) 미만의 주파수에서 식별된 스펙트럼(90)과 예상된 스펙트럼(92)의 전력 레벨이 실질적으로 동일한(P1로 표시) 것을 볼 수 있다. 주파수가 증가함에 따라, 식별된 스펙트럼(90)의 전력 레벨은 예상된 스펙트럼(92)의 전력 레벨에서 벗어나기 시작한다. 이 예에서, 예상된 스펙트럼의 전력 레벨은 주파수가 증가함에 따라 식별된 스펙트럼의 전력 레벨보다 훨씬 더 빠른 율로 감소하기 시작한다. 제2 특정 주파수(f2로 표시)에서, 식별된 스펙트럼(90)의 전력 레벨은 예상된 스펙트럼(92)의 전력 레벨(P2로 표시)보다 상당히 더 낮은 전력 레벨(P3으로 표시)에 있다. 식별된 스펙트럼과 예상된 스펙트럼 사이의 특정 주파수에서 절대 전력 레벨의 이러한 차이는 음성을 나타내는 수신된 오디오 신호가 리플레이 공격을 인한 것일 수 있다는 것을 나타낼 수 있다. 일부 예에서, 임계 레벨을 초과하는 절대 전력 레벨의 차이는 리플레이 공격을 나타낼 수 있다. 예를 들어, 임계 레벨은 1dB일 수 있다. 따라서, 이에 따라, 알려진 음향 등급의 신호를 동일한 음향 등급에 고유한 예상된 스펙트럼과 비교함으로써 보다 안정적인 방식으로 리플레이 공격으로 인한 것일 수 있는 신호를 식별할 수 있다.
따라서, 위에서 언급한 바와 같이, 스마트 폰과 같은 레코딩 및 재생 디바이스의 한계를 탐지하여 탐지된 음성 신호가 리플레이 공격으로 인한 것일 수 있을 것을 탐지하는 하나의 방식은 초음파 주파수에 존재하는 에너지의 양을 조사하는 것이다. 그러나, 초음파 주파수에 존재하는 예상된 에너지의 양은 음성에 존재하는 음소에 의존한다.
따라서, 본 명세서에 개시된 일부 방법은 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별하는 것과 관련되며, 특히 음성에 존재하는 하나 이상의 특정 음소를 식별한 다음, 오디오 신호의 이 부분의 주파수 스펙트럼에 대한 정보를 얻는 것과 관련된다.
이러한 방법의 하나의 예는 (또는 보다 일반적으로 무성음을 포함하는 각 프레임 동안) 마찰 음소를 포함하는 각 프레임 동안 초음파 주파수에 존재하는 에너지의 평균 양을 측정하고, 이를 유성음을 포함하는 각 프레임 동안 초음파 주파수에 존재하는 에너지의 평균 양과 비교하는 것이다.
x1은 음성의 생생함(liveness)을 나타내는 척도이고,
Eu(f)는 마찰 음소를 포함하는 프레임 동안(또는 보다 일반적으로 무성음을 포함하는 프레임 동안) 초음파 주파수에 존재하는 에너지의 양을 측정한 값이고,
Eu(v)는 유성음을 포함하는 프레임 동안 초음파 주파수에 존재하는 에너지의 양을 측정한 값이다.
따라서 x1에 대한 값이 계산될 수 있고, 이것은 음성 신호가 리플레이 공격으로 인한 것으로 간주되어야 하는지 여부를 필요한 신뢰도로 결정하기 위해 적절한 임계 값과 비교될 수 있다.
이러한 방법의 또 다른 예는 마찰 음소를 포함하는 각 프레임 동안(또는 보다 일반적으로 무성음을 포함하는 각 프레임 동안) 다수의 서로 다른 초음파 주파수 대역에 존재하는 에너지의 평균 양을 측정하고, 이를 유성음을 포함하는 프레임 동안 이 초음파 주파수 대역에 존재하는 에너지의 양과 비교하는 것이다.
x2(b)는 다수의 주파수 대역에서 다음 비율을 계산하여 얻어진 값의 세트이고,
Eb(f)는 마찰 음소를 포함하는 프레임 동안(또는 일반적으로 무성음을 포함하는 프레임 동안) 여러 초음파 주파수 대역 중 하나에 존재하는 에너지의 양을 측정한 값이고,
Eb(v)는 유성음을 포함하는 프레임 동안 여러 초음파 주파수 대역 중 하나에 존재하는 에너지의 양을 측정한 값이다.
따라서, 여러 초음파 주파수 대역 각각에 대해 에 대한 값이 계산될 수 있으며, 이러한 값을 결합하면 일련의 값(x2(b))을 형성할 수 있고, 이들 값은 생생함의 척도로 사용될 수 있다.
기계 학습 접근 방식은 계산된 값(x2(b))이 라이브 음성을 나타내는지 여부 또는 음성 신호가 리플레이 공격으로 인한 것으로 간주되어야 하는지 여부를 결정하는 데 적합할 수 있다.
이러한 방법의 또 다른 예는 마찰 음소를 포함하는 각 프레임 동안(또는 보다 일반적으로 무성음을 포함하는 각 프레임 동안) 초음파 주파수에 존재하는 에너지의 평균 양을 측정하고, 이를 동일한 프레임 동안 가청 주파수 대역에 존재하는 에너지의 양과 비교하는 것이다.
x3은 음성의 생생함을 나타내는 척도이고,
Eu(f)는 마찰 음소를 포함하는 프레임 동안(또는 보다 구체적으로 치찰음을 포함하는 프레임 동안 또는 보다 일반적으로 무성음을 포함하는 프레임 동안) 초음파 주파수에 존재하는 에너지의 양을 측정한 값이고,
Eα(f)는 동일한 프레임 동안 가청 주파수 대역에 존재하는 에너지의 양을 측정한 값이다.
따라서 x3에 대한 값이 계산될 수 있고, 이것은 음성 신호가 리플레이 공격으로 인한 것으로 간주되어야 하는지 여부를 필요한 신뢰도로 결정하기 위해 적절한 임계 값과 비교될 수 있다.
이러한 방법의 또 다른 예는 마찰 음소를 포함하는 각 프레임 동안(또는 보다 일반적으로 무성음을 포함하는 각 프레임 동안) 초음파 주파수에 존재하는 에너지의 평균 양을 측정하고, 이것을 동일한 프레임 동안 가청 주파수 대역에 존재하는 에너지의 양과 비교하고, 또한 유성음을 포함하는 프레임 동안 초음파 주파수에 존재하는 에너지의 양을 측정하고, 이것을 동일한 프레임 동안 가청 주파수 대역에 존재하는 에너지의 양과 비교하고, 이후 두 비율의 비율을 취하는 것이다.
x4는 음성의 생생함을 나타내는 척도이고,
Eu(f)는 마찰 음소를 포함하는 프레임 동안(또는 보다 일반적으로 무성음을 포함하는 프레임 동안) 초음파 주파수에 존재하는 에너지의 양을 측정한 값이고,
Eα(f)는 마찰음을 포함하는 프레임 동안(또는 보다 일반적으로 무성음을 포함하는 프레임 동안) 가청 주파수 대역에 존재하는 에너지의 양을 측정한 값이고,
Eu(v)는 유성음을 포함하는 프레임 동안 초음파 주파수에 존재하는 에너지의 양을 측정한 값이고,
Eα(v)는 유성음을 포함하는 프레임 동안 가청 주파수 대역에 존재하는 에너지의 양을 측정한 값이다.
따라서 x4에 대한 값이 계산될 수 있고, 이것은 음성 신호가 리플레이 공격으로 인한 것으로 간주되어야 하는지 여부를 필요한 신뢰도로 결정하기 위해 적절한 임계 값과 비교될 수 있다.
이러한 방법의 또 다른 예는 마찰 음소를 포함하는 각 프레임 동안(또는 보다 일반적으로 무성음을 포함하는 각 프레임 동안) 초음파 주파수에 존재하는 에너지의 평균 양을 측정하고, 이를 초음파 잡음 플로어라고 간주될 수 있는 음성을 포함하지 않는 프레임에 존재하는 에너지의 양과 비교하는 것이다.
x5는 음성의 생생함을 나타내는 척도이고,
Eu(f)는 마찰 음소를 포함하는 프레임 동안(또는 보다 일반적으로 무성음을 포함하는 프레임 동안) 초음파 주파수에 존재하는 에너지의 양을 측정한 값이고,
Eu(n)은 비 음성 프레임에 존재하는 에너지의 양을 측정한 값이다.
따라서 x5에 대한 값이 계산될 수 있고, 이것은 음성 신호가 리플레이 공격으로 인한 것으로 간주되어야 하는지 여부를 필요한 신뢰도로 결정하기 위해 적절한 임계 값과 비교될 수 있다.
이 기술 분야에 통상의 지식을 가진 자라면 전술한 장치 및 방법의 일부 양태가 예를 들어 디스크, CD 또는 DVD-ROM, 판독 전용 메모리(펌웨어)와 같은 프로그래밍된 메모리와 같은 비 휘발성 운반 매체에, 또는 광학 또는 전기 신호 운반 매체와 같은 데이터 운반 매체에 프로세서 제어 코드로서 구현될 수 있다는 것을 이해할 수 있을 것이다. 많은 응용을 위해 본 발명의 실시형태는 DSP(디지털 신호 프로세서), ASIC(주문형 집적 회로) 또는 FPGA(전계 프로그래밍 가능 게이트 어레이)에서 구현될 것이다. 따라서 코드는 종래의 프로그램 코드 또는 마이크로코드 또는 예를 들어 ASIC 또는 FPGA를 설정하거나 제어하기 위한 코드를 포함할 수 있다. 코드는 또한 재프로그래밍 가능한 논리 게이트 어레이와 같은 재구성 가능한 장치를 동적으로 구성하기 위한 코드를 포함할 수 있다. 유사하게 코드는 베릴로그(Verilog) TM 또는 VHDL(초고속 집적 회로 하드웨어 설명 언어)과 같은 하드웨어 설명 언어에 대한 코드를 포함할 수 있다. 이 기술 분야에 통상의 지식을 가진 자라면 코드는 서로 통신하는 복수의 결합된 구성 요소 사이에 분산될 수 있다는 것을 이해할 수 있을 것이다. 적절한 경우, 실시형태는 아날로그 하드웨어를 구성하기 위해 전계 (재)프로그래밍한 가능 아날로그 어레이 또는 유사한 디바이스에서 실행되는 코드를 사용하여 구현될 수도 있다.
본 명세서에서 사용된 모듈이라는 용어는 예를 들어 사용자 정의 회로부와 같은 전용 하드웨어 구성 요소에 의해 적어도 부분적으로 구현되거나 및/또는 하나 이상의 소프트웨어 프로세서 또는 적절한 범용 프로세서 등에서 실행되는 적절한 코드에 의해 적어도 부분적으로 구현될 수 있는 기능 유닛 또는 블록을 지칭하는 데 사용된다는 것이 주목된다. 모듈 자체는 다른 모듈 또는 기능 유닛을 포함할 수 있다. 모듈은 함께 배치될 필요가 없고 다른 집적 회로에 제공되거나 및/또는 다른 프로세서에서 실행될 수 있는 다수의 구성 요소 또는 서브 모듈에 의해 제공될 수 있다.
실시형태는 호스트 디바이스, 특히 휴대용 및/또는 배터리 사용 호스트 디바이스, 예를 들어, 모바일 컴퓨팅 디바이스, 예를 들어, 랩탑 또는 태블릿 컴퓨터, 게임 콘솔, 원격 제어 디바이스, 가정용 온도 또는 조명 제어 시스템을 포함하는 홈 자동화 제어기 또는 가정용 기기, 장난감, 로봇과 같은 기계, 오디오 플레이어, 비디오 플레이어 또는 휴대 전화, 예를 들어, 스마트폰 등에서 구현될 수 있다.
상기 언급된 실시형태는 본 발명을 제한하는 것이 아니라 예시하는 것이고, 이 기술 분야에 통상의 지식을 가진 자라면 첨부된 청구범위를 벗어나지 않고 많은 대안적인 실시형태를 설계할 수 있다는 점에 유의해야 한다. "포함하는"이라는 단어는 청구범위에 나열된 것 이외의 요소 또는 단계의 존재를 배제하지 않으며, 단수형 요소는 복수의 요소를 배제하지 않으며, 단일 특징 또는 다른 유닛은 청구항에 인용된 여러 유닛의 기능을 수행할 수 있다. 청구범위에서 임의의 참조 번호 또는 라벨은 청구범위를 제한하는 것으로 해석되어서는 안 된다.
Claims (32)
- 리플레이 공격(replay attack)을 탐지하는 방법으로서,
음성을 나타내는 오디오 신호를 수신하는 단계;
상기 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별하는 단계;
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분의 주파수 스펙트럼에 대한 정보를 획득하는 단계; 및
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분에 대해,
상기 오디오 신호의 예상된 주파수 스펙트럼에 대한 정보를 검색하는 단계;
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하는 단계; 및
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼과 각각의 예상된 주파수 스펙트럼 사이의 차이의 측정값이 임계 레벨을 초과하는 경우 상기 오디오 신호가 리플레이 공격으로 인한 것일 수 있다고 결정하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법. - 제1항에 있어서,
수신된 오디오 신호로부터 채널 및/또는 잡음의 효과를 제거하는 단계; 및
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분의 주파수 스펙트럼에 대한 정보를 얻을 때 상기 채널 및/또는 잡음의 효과를 제거한 후 상기 오디오 신호를 사용하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법. - 제1항에 있어서, 상기 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별하는 단계는 적어도 하나의 테스트 음향 등급을 식별하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법.
- 제3항에 있어서, 상기 적어도 하나의 테스트 음향 등급은 하나 이상의 특정 음소를 포함하는, 리플레이 공격을 탐지하는 방법.
- 제4항에 있어서, 상기 적어도 하나의 테스트 음향 등급은 마찰음을 포함하는, 리플레이 공격을 탐지하는 방법.
- 제5항에 있어서, 상기 적어도 하나의 테스트 음향 등급은 치찰음을 포함하는, 리플레이 공격을 탐지하는 방법.
- 제4항에 있어서, 상기 적어도 하나의 테스트 음향 등급은 파열음을 포함하는, 리플레이 공격을 탐지하는 방법.
- 제3항에 있어서, 적어도 하나의 테스트 음향 등급을 식별하는 단계는 알려진 음성 콘텐츠에서 상기 테스트 음향 등급의 발생 위치를 식별하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법.
- 제8항에 있어서, 상기 알려진 음성 콘텐츠는 패스 어구(pass phrase)를 포함하는, 리플레이 공격을 탐지하는 방법.
- 제1항에 있어서, 상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하는 단계는,
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 5kHz 내지 20kHz 범위의 주파수 대역의 각각의 예상된 주파수 스펙트럼과 비교하는 것을 포함하는, 리플레이 공격을 탐지하는 방법. - 제1항에 있어서, 상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하는 단계는,
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 20Hz 내지 200Hz의 주파수 대역의 각각의 예상된 주파수 스펙트럼과 비교하는 것을 포함하는, 리플레이 공격을 탐지하는 방법. - 제1항에 있어서, 상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하는 단계는,
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 초음파 주파수 대역의 각각의 예상된 주파수 스펙트럼과 비교하는 것을 포함하는, 리플레이 공격을 탐지하는 방법. - 제1항에 있어서, 상기 오디오 신호의 식별된 부분을 대응하는 테스트 음향 등급에 대한 각각의 검색된 정보와 비교하는 단계는,
상기 오디오 신호의 식별된 부분의 적어도 하나의 주파수 대역의 전력 레벨을 상기 오디오 신호의 예상된 스펙트럼의 적어도 하나의 대응하는 주파수 대역의 전력 레벨과 비교하는 것을 포함하는, 리플레이 공격을 탐지하는 방법. - 제13항에 있어서, 상기 오디오 신호의 식별된 부분과 이에 대응하는 테스트 음향 등급에 대한 각각의 검색된 정보 사이의 차이의 측정값은 1dB보다 더 큰 전력 차이를 포함하는, 리플레이 공격을 탐지하는 방법.
- 제1항에 있어서,
상기 수신된 오디오 신호에 대해 화자 식별 프로세스를 수행하는 단계; 및
각 테스트 음향 등급에 대해, 상기 화자 식별 프로세스에 의해 식별된 화자에 대한 상기 오디오 신호의 예상된 스펙트럼에 대한 정보를 검색하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법. - 제1항에 있어서,
상기 오디오 신호의 예상된 주파수 스펙트럼에 대한 정보를 검색하는 단계는 적어도 하나의 특정 음향 등급이 나타날 것으로 예상되는 오디오 신호의 위치를 식별하는 것을 포함하고;
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼을 비교하는 단계는 상기 식별된 위치에서의 주파수 스펙트럼을 상기 식별된 위치에서의 예상된 주파수 스펙트럼과 비교하는 것을 포함하는, 리플레이 공격을 탐지하는 방법. - 제16항에 있어서, 상기 특정 음향 등급은 적어도 일부 마찰음을 포함하는, 리플레이 공격을 탐지하는 방법.
- 제16항 및 제17항에 있어서, 마찰음이 나타날 것으로 예상되는 상기 위치에서 주파수 스펙트럼이 마찰음의 특징인지 여부를 결정하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법.
- 제16항, 제17항 또는 제18항에 있어서, 적어도 하나의 특정 음향 등급이 나타날 것으로 예상되는 오디오 신호의 위치를 식별하는 단계는 상기 적어도 하나의 특정 음향 등급이 나타나는 미리 결정된 발화(utterance)에서 위치를 식별하는 것을 포함하는, 리플레이 공격을 탐지하는 방법.
- 제19항에 있어서, 상기 미리 결정된 발화는 패스 어구를 포함하는, 리플레이 공격을 탐지하는 방법.
- 리플레이 공격을 탐지하기 위한 시스템으로서,
음성을 나타내는 오디오 신호를 수신하기 위한 입력; 및
프로세서를 포함하고, 상기 프로세서는,
상기 오디오 신호의 적어도 일부에 존재하는 음성 콘텐츠를 식별하고;
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분의 주파수 스펙트럼에 대한 정보를 획득하고;
상기 음성 콘텐츠가 식별된 오디오 신호의 각 부분에 대해, 상기 오디오 신호의 예상된 주파수 스펙트럼에 대한 정보를 검색하고;
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼을 각각의 예상된 주파수 스펙트럼과 비교하고; 그리고
상기 음성 콘텐츠가 식별된 오디오 신호 부분의 주파수 스펙트럼과 각각의 예상된 주파수 스펙트럼 사이의 차이의 측정값이 임계 레벨을 초과하는 경우 상기 오디오 신호가 리플레이 공격으로 인한 것일 수 있다고 결정하도록 구성된, 리플레이 공격을 탐지하기 위한 시스템. - 제21항에 따른 시스템을 포함하는 디바이스로서, 상기 디바이스는 스마트폰, 태블릿 또는 랩톱 컴퓨터, 게임 콘솔, 홈 제어 시스템, 홈 엔터테인먼트 시스템, 차량 내 엔터테인먼트 시스템, 또는 가정용 기기 중 하나를 포함하는, 디바이스.
- 적절한 프로그래밍된 프로세서로 하여금 제1항에 청구된 방법을 수행하게 하기 위한 코드를 저장하는 유형적인 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품.
- 리플레이 공격을 탐지하는 방법으로서,
음성을 나타내는 오디오 신호를 수신하는 단계;
상기 음성이 마찰음으로 구성된 상기 오디오 신호의 적어도 일부분을 식별하는 단계;
상기 오디오 신호의 적어도 일부분 동안 초음파 주파수에 존재하는 에너지의 양에 관한 정보를 획득하는 단계; 및
상기 오디오 신호가 초음파 주파수에 존재하는 에너지의 양에 대한 상기 정보에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법. - 제24항에 있어서,
상기 음성이 유성음으로 구성된 상기 오디오 신호의 제2 부분 동안 초음파 주파수에 존재하는 에너지의 양에 대한 정보를 획득하는 단계; 및
상기 오디오 신호가 초음파 주파수에 존재하는 에너지의 양에 관한 상기 정보에 기초하고 그리고 상기 오디오 신호의 제2 부분 동안 초음파 주파수에 존재하는 에너지의 양에 관한 상기 정보에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 더 포함하는, 리플레이 공격을 탐지하는 방법. - 제25항에 있어서,
상기 오디오 신호가 상기 오디오 신호의 제2 부분 동안 초음파 주파수에 존재하는 에너지의 양에 대한 상기 오디오 신호의 적어도 일부분 동안 초음파 주파수에 존재하는 에너지의 양의 비율에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법. - 제24항, 제25항 또는 제26항에 있어서,
상기 오디오 신호의 상기 적어도 일부분 동안 가청 주파수에 존재하는 에너지의 양에 관한 정보를 획득하는 단계; 및
상기 오디오 신호가 초음파 주파수에 존재하는 에너지의 양에 대한 상기 정보에 기초하고 그리고 상기 오디오 신호의 상기 적어도 일부분 동안 가청 주파수에 존재하는 에너지의 양에 대한 상기 정보에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 더 포함하는, 리플레이 공격을 탐지하는 방법. - 제27항에 있어서,
상기 오디오 신호가 상기 오디오 신호의 상기 적어도 일부분 동안 가청 주파수에 존재하는 에너지의 양에 대한 초음파 주파수에 존재하는 에너지의 양의 비율에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법. - 제24항 내지 제28항 중 어느 한 항에 있어서,
상기 오디오 신호의 상기 적어도 일부분 동안 가청 주파수에 존재하는 에너지의 양에 대한 초음파 주파수에 존재하는 에너지의 양의 제1 비율을 계산하는 단계;
상기 오디오 신호의 제2 부분 동안 가청 주파수에 존재하는 에너지의 양의 제2 비율에 대해 상기 음성이 유성음으로 구성된 오디오 신호의 제2 부분 동안 초음파 주파수에 존재하는 에너지의 양을 계산하는 단계; 및
상기 제2 비율에 대한 상기 제1 비율의 비율을 계산하는 단계를 포함하는, 리플레이 공격을 탐지하는 방법. - 리플레이 공격을 탐지하기 위한 시스템으로서,
음성을 나타내는 오디오 신호를 수신하기 위한 입력; 및
프로세서를 포함하고, 상기 프로세서는,
상기 음성이 마찰음으로 구성된 오디오 신호의 적어도 일부분을 식별하고;
상기 오디오 신호의 적어도 일부분 동안 초음파 주파수에 존재하는 에너지의 양에 관한 정보를 획득하고;
상기 오디오 신호가 초음파 주파수에 존재하는 에너지의 양에 대한 상기 정보에 기초하여 리플레이 공격으로 인한 것일 수 있는지 여부를 결정하도록 구성된, 리플레이 공격을 탐지하기 위한 시스템. - 제30항에 따른 시스템을 포함하는 디바이스로서, 상기 디바이스는 스마트폰, 태블릿 또는 랩톱 컴퓨터, 게임 콘솔, 홈 제어 시스템, 홈 엔터테인먼트 시스템, 차량 내 엔터테인먼트 시스템, 또는 가정용 기기 중 하나를 포함하는, 디바이스.
- 적절한 프로그래밍된 프로세서로 하여금 제24항에 청구된 방법을 수행하게 하기 위한 코드를 저장하는 유형적인 컴퓨터 판독 가능 매체를 포함하는 컴퓨터 프로그램 제품.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/050,593 | 2018-07-31 | ||
US16/050,593 US10692490B2 (en) | 2018-07-31 | 2018-07-31 | Detection of replay attack |
PCT/GB2019/052143 WO2020025951A1 (en) | 2018-07-31 | 2019-07-31 | Detection of replay attack |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210038871A true KR20210038871A (ko) | 2021-04-08 |
Family
ID=67551390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217000242A KR20210038871A (ko) | 2018-07-31 | 2019-07-31 | 리플레이 공격의 탐지 |
Country Status (5)
Country | Link |
---|---|
US (3) | US10692490B2 (ko) |
KR (1) | KR20210038871A (ko) |
CN (1) | CN112424860A (ko) |
GB (2) | GB2604747B (ko) |
WO (1) | WO2020025951A1 (ko) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
JP7056340B2 (ja) * | 2018-04-12 | 2022-04-19 | 富士通株式会社 | 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11023570B2 (en) * | 2019-01-28 | 2021-06-01 | EMC IP Holding Company LLC | User authentication with acoustic fingerprinting |
WO2021165637A1 (en) * | 2020-02-20 | 2021-08-26 | Cirrus Logic International Semiconductor Limited | Audio system with digital microphone |
US11341974B2 (en) | 2020-05-21 | 2022-05-24 | Cirrus Logic, Inc. | Authenticating received speech |
US11721346B2 (en) | 2020-06-10 | 2023-08-08 | Cirrus Logic, Inc. | Authentication device |
CN113744765B (zh) * | 2021-08-19 | 2023-12-29 | 深圳市新国都股份有限公司 | Pos机语音播报检测方法、装置及存储介质 |
US20230343359A1 (en) * | 2022-04-26 | 2023-10-26 | Cirrus Logic International Semiconductor Ltd. | Live speech detection |
Family Cites Families (318)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1229725B (it) | 1989-05-15 | 1991-09-07 | Face Standard Ind | Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato |
US5568559A (en) | 1993-12-17 | 1996-10-22 | Canon Kabushiki Kaisha | Sound processing apparatus |
US5625747A (en) * | 1994-09-21 | 1997-04-29 | Lucent Technologies Inc. | Speaker verification, speech recognition and channel normalization through dynamic time/frequency warping |
US5710866A (en) | 1995-05-26 | 1998-01-20 | Microsoft Corporation | System and method for speech recognition using dynamically adjusted confidence measure |
US5787187A (en) | 1996-04-01 | 1998-07-28 | Sandia Corporation | Systems and methods for biometric identification using the acoustic properties of the ear canal |
US5838515A (en) | 1996-04-30 | 1998-11-17 | Quantum Corporation | PWM/linear driver for disk drive voice coil actuator |
CN1291324A (zh) | 1997-01-31 | 2001-04-11 | T-内提克斯公司 | 检测录制声音的系统和方法 |
US6182037B1 (en) | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US6229880B1 (en) | 1998-05-21 | 2001-05-08 | Bell Atlantic Network Services, Inc. | Methods and apparatus for efficiently providing a communication system with speech recognition capabilities |
JP3893763B2 (ja) | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
US6249237B1 (en) | 1998-10-09 | 2001-06-19 | Lsi Logic Corporation | System and method for bandpass shaping in an oversampling converter |
US6275806B1 (en) | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US7280970B2 (en) * | 1999-10-04 | 2007-10-09 | Beepcard Ltd. | Sonic/ultrasonic authentication device |
US7039951B1 (en) | 2000-06-06 | 2006-05-02 | International Business Machines Corporation | System and method for confidence based incremental access authentication |
JP2002143130A (ja) | 2000-11-08 | 2002-05-21 | Matsushita Electric Ind Co Ltd | 個人認証方法、および個人認証装置、およびこの装置を搭載した情報通信装置、および個人認証システム |
US7016833B2 (en) | 2000-11-21 | 2006-03-21 | The Regents Of The University Of California | Speaker verification system using acoustic data and non-acoustic data |
US8812319B2 (en) | 2001-01-31 | 2014-08-19 | Ibiometrics, Inc. | Dynamic pass phrase security system (DPSS) |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
GB2375205A (en) | 2001-05-03 | 2002-11-06 | Orange Personal Comm Serv Ltd | Determining identity of a user |
US20020194003A1 (en) | 2001-06-05 | 2002-12-19 | Mozer Todd F. | Client-server security system and method |
EP1399915B1 (en) | 2001-06-19 | 2009-03-18 | Speech Sentinel Limited | Speaker verification |
JP2003058190A (ja) | 2001-08-09 | 2003-02-28 | Mitsubishi Heavy Ind Ltd | 個人認証方式 |
US7240007B2 (en) | 2001-12-13 | 2007-07-03 | Matsushita Electric Industrial Co., Ltd. | Speaker authentication by fusion of voiceprint match attempt results with additional information |
US8148989B2 (en) | 2002-03-11 | 2012-04-03 | Keith Kopp | Ferromagnetic detection enhancer compatible with magnetic resonance |
JP4195267B2 (ja) | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
JP2003271191A (ja) | 2002-03-15 | 2003-09-25 | Toshiba Corp | 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム |
US7337115B2 (en) | 2002-07-03 | 2008-02-26 | Verizon Corporate Services Group Inc. | Systems and methods for providing acoustic classification |
US20040163034A1 (en) | 2002-10-17 | 2004-08-19 | Sean Colbath | Systems and methods for labeling clusters of documents |
JP4247002B2 (ja) | 2003-01-22 | 2009-04-02 | 富士通株式会社 | マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置 |
US7418392B1 (en) | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
AU2003274864A1 (en) | 2003-10-24 | 2005-05-11 | Nokia Corpration | Noise-dependent postfiltering |
US7492913B2 (en) | 2003-12-16 | 2009-02-17 | Intel Corporation | Location aware directed audio |
US20050171774A1 (en) | 2004-01-30 | 2005-08-04 | Applebaum Ted H. | Features and techniques for speaker authentication |
JP4217646B2 (ja) | 2004-03-26 | 2009-02-04 | キヤノン株式会社 | 認証方法及び認証装置 |
EP1600791B1 (en) | 2004-05-26 | 2009-04-01 | Honda Research Institute Europe GmbH | Sound source localization based on binaural signals |
JP4359887B2 (ja) | 2004-06-23 | 2009-11-11 | 株式会社デンソー | 個人認証システム |
WO2006054205A1 (en) | 2004-11-16 | 2006-05-26 | Koninklijke Philips Electronics N.V. | Audio device for and method of determining biometric characteristincs of a user. |
US7529379B2 (en) | 2005-01-04 | 2009-05-05 | Motorola, Inc. | System and method for determining an in-ear acoustic response for confirming the identity of a user |
US20060171571A1 (en) | 2005-02-01 | 2006-08-03 | Chan Michael T | Systems and methods for quality-based fusion of multiple biometrics for authentication |
JP3906230B2 (ja) | 2005-03-11 | 2007-04-18 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US7536304B2 (en) | 2005-05-27 | 2009-05-19 | Porticus, Inc. | Method and system for bio-metric voice print authentication |
US20070055517A1 (en) | 2005-08-30 | 2007-03-08 | Brian Spector | Multi-factor biometric authentication |
CN101437449B (zh) | 2005-09-22 | 2012-02-01 | 皇家飞利浦电子股份有限公司 | 用于声学外耳表征的方法和设备 |
US8458465B1 (en) | 2005-11-16 | 2013-06-04 | AT&T Intellectual Property II, L. P. | Biometric authentication |
US20070129941A1 (en) | 2005-12-01 | 2007-06-07 | Hitachi, Ltd. | Preprocessing system and method for reducing FRR in speaking recognition |
US8549318B2 (en) | 2006-02-13 | 2013-10-01 | Affirmed Technologies, Llc | Method and system for preventing unauthorized use of a vehicle by an operator of the vehicle |
EP1843325B1 (en) | 2006-04-03 | 2009-11-18 | Voice.Trust Ag | Speaker authentication in digital communication networks |
US7552467B2 (en) | 2006-04-24 | 2009-06-23 | Jeffrey Dean Lindsay | Security systems for protecting an asset |
US20070276658A1 (en) | 2006-05-23 | 2007-11-29 | Barry Grayson Douglass | Apparatus and Method for Detecting Speech Using Acoustic Signals Outside the Audible Frequency Range |
US20080040615A1 (en) | 2006-06-30 | 2008-02-14 | Electronic Plastics, Llc | Biometric embedded device |
US8760636B2 (en) | 2006-08-11 | 2014-06-24 | Thermo Scientific Portable Analytical Instruments Inc. | Object scanning and authentication |
US7372770B2 (en) | 2006-09-12 | 2008-05-13 | Mitsubishi Electric Research Laboratories, Inc. | Ultrasonic Doppler sensor for speech-based user interface |
ES2433966T3 (es) | 2006-10-03 | 2013-12-13 | Shazam Entertainment, Ltd. | Método para caudal alto de identificación de contenido de radiodifusión distribuido |
EP1928213B1 (en) | 2006-11-30 | 2012-08-01 | Harman Becker Automotive Systems GmbH | Headtracking system and method |
JP5012092B2 (ja) | 2007-03-02 | 2012-08-29 | 富士通株式会社 | 生体認証装置、生体認証プログラムおよび複合型生体認証方法 |
WO2008113024A1 (en) | 2007-03-14 | 2008-09-18 | Spectros Corporation | Metabolism-or biochemical-based anti-spoofing biometrics devices, systems, and methods |
US20080285813A1 (en) | 2007-05-14 | 2008-11-20 | Motorola, Inc. | Apparatus and recognition method for capturing ear biometric in wireless communication devices |
JP4294724B2 (ja) | 2007-08-10 | 2009-07-15 | パナソニック株式会社 | 音声分離装置、音声合成装置および声質変換装置 |
AU2015202397B2 (en) | 2007-09-24 | 2017-03-02 | Apple Inc. | Embedded authentication systems in an electronic device |
US20090105548A1 (en) | 2007-10-23 | 2009-04-23 | Bart Gary F | In-Ear Biometrics |
US8542095B2 (en) | 2008-02-22 | 2013-09-24 | Nec Corporation | Biometric authentication device, biometric authentication method, and storage medium |
US8150108B2 (en) | 2008-03-17 | 2012-04-03 | Ensign Holdings, Llc | Systems and methods of identification based on biometric parameters |
US8315876B2 (en) | 2008-05-09 | 2012-11-20 | Plantronics, Inc. | Headset wearer identity authentication with voice print or speech recognition |
WO2010008722A1 (en) * | 2008-06-23 | 2010-01-21 | John Nicholas Gross | Captcha system optimized for distinguishing between humans and machines |
US8793135B2 (en) | 2008-08-25 | 2014-07-29 | At&T Intellectual Property I, L.P. | System and method for auditory captchas |
US20100076770A1 (en) | 2008-09-23 | 2010-03-25 | Veeru Ramaswamy | System and Method for Improving the Performance of Voice Biometrics |
JP2010086328A (ja) | 2008-09-30 | 2010-04-15 | Yamaha Corp | 認証装置および携帯電話機 |
US8332223B2 (en) | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8190437B2 (en) | 2008-10-24 | 2012-05-29 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8442824B2 (en) | 2008-11-26 | 2013-05-14 | Nuance Communications, Inc. | Device, system, and method of liveness detection utilizing voice biometrics |
US8762149B2 (en) | 2008-12-10 | 2014-06-24 | Marta Sánchez Asenjo | Method for verifying the identity of a speaker and related computer readable medium and computer |
US9767806B2 (en) | 2013-09-24 | 2017-09-19 | Cirrus Logic International Semiconductor Ltd. | Anti-spoofing |
US20150112682A1 (en) | 2008-12-10 | 2015-04-23 | Agnitio Sl | Method for verifying the identity of a speaker and related computer readable medium and computer |
US8997191B1 (en) | 2009-02-03 | 2015-03-31 | ServiceSource International, Inc. | Gradual template generation |
US8275622B2 (en) | 2009-02-06 | 2012-09-25 | Mitsubishi Electric Research Laboratories, Inc. | Ultrasonic doppler sensor for speaker recognition |
JP5383800B2 (ja) | 2009-06-08 | 2014-01-08 | パナソニック株式会社 | 補聴器、中継器、補聴システム、補聴方法、プログラム、及び集積回路 |
US8130915B2 (en) | 2009-08-26 | 2012-03-06 | International Business Machines Corporation | Verification of user presence during an interactive voice response system session |
JP5397131B2 (ja) | 2009-09-29 | 2014-01-22 | 沖電気工業株式会社 | 音源方向推定装置及びプログラム |
CN101673544B (zh) | 2009-10-10 | 2012-07-04 | 上海电虹软件有限公司 | 一种基于声纹识别和定位跟踪的交叉监控方法和系统 |
CN102870156B (zh) | 2010-04-12 | 2015-07-22 | 飞思卡尔半导体公司 | 音频通信设备、输出音频信号的方法和通信系统 |
US8775179B2 (en) | 2010-05-06 | 2014-07-08 | Senam Consulting, Inc. | Speech-based speaker recognition systems and methods |
US10204625B2 (en) | 2010-06-07 | 2019-02-12 | Affectiva, Inc. | Audio analysis learning using video data |
US9118488B2 (en) | 2010-06-17 | 2015-08-25 | Aliphcom | System and method for controlling access to network services using biometric authentication |
US20110317848A1 (en) | 2010-06-23 | 2011-12-29 | Motorola, Inc. | Microphone Interference Detection Method and Apparatus |
US10042993B2 (en) | 2010-11-02 | 2018-08-07 | Homayoon Beigi | Access control through multifactor authentication with multimodal biometrics |
US9064257B2 (en) | 2010-11-02 | 2015-06-23 | Homayoon Beigi | Mobile device transaction using multi-factor authentication |
US9318114B2 (en) * | 2010-11-24 | 2016-04-19 | At&T Intellectual Property I, L.P. | System and method for generating challenge utterances for speaker verification |
US9354310B2 (en) | 2011-03-03 | 2016-05-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound |
US9049983B1 (en) | 2011-04-08 | 2015-06-09 | Amazon Technologies, Inc. | Ear recognition as device input |
US9646261B2 (en) | 2011-05-10 | 2017-05-09 | Nymi Inc. | Enabling continuous or instantaneous identity recognition of a large group of people based on physiological biometric signals obtained from members of a small group of people |
US8655796B2 (en) | 2011-06-17 | 2014-02-18 | Sanjay Udani | Methods and systems for recording verifiable documentation |
US9536523B2 (en) | 2011-06-22 | 2017-01-03 | Vocalzoom Systems Ltd. | Method and system for identification of speech segments |
EP2546680B1 (en) | 2011-07-13 | 2014-06-04 | Sercel | Method and device for automatically detecting marine animals |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US9171548B2 (en) | 2011-08-19 | 2015-10-27 | The Boeing Company | Methods and systems for speaker identity verification |
CN102982804B (zh) | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
US8768707B2 (en) | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US9640193B2 (en) * | 2011-11-04 | 2017-05-02 | Northeastern University | Systems and methods for enhancing place-of-articulation features in frequency-lowered speech |
FR2984254B1 (fr) | 2011-12-16 | 2016-07-01 | Renault Sa | Controle de vehicules autonomes |
US8613066B1 (en) | 2011-12-30 | 2013-12-17 | Amazon Technologies, Inc. | Techniques for user authentication |
GB2499781A (en) | 2012-02-16 | 2013-09-04 | Ian Vince Mcloughlin | Acoustic information used to determine a user's mouth state which leads to operation of a voice activity detector |
US9042867B2 (en) | 2012-02-24 | 2015-05-26 | Agnitio S.L. | System and method for speaker recognition on mobile devices |
KR101971697B1 (ko) | 2012-02-24 | 2019-04-23 | 삼성전자주식회사 | 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치 |
CN105469805B (zh) | 2012-03-01 | 2018-01-12 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
CN104205721B (zh) | 2012-03-08 | 2018-03-23 | 诺基亚技术有限公司 | 情景感知自适应认证方法和装置 |
US9857451B2 (en) | 2012-04-13 | 2018-01-02 | Qualcomm Incorporated | Systems and methods for mapping a source location |
US20130279724A1 (en) | 2012-04-19 | 2013-10-24 | Sony Computer Entertainment Inc. | Auto detection of headphone orientation |
US9013960B2 (en) | 2012-04-20 | 2015-04-21 | Symbol Technologies, Inc. | Orientation of an ultrasonic signal |
US8676579B2 (en) | 2012-04-30 | 2014-03-18 | Blackberry Limited | Dual microphone voice authentication for mobile device |
KR20130133629A (ko) | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9363670B2 (en) | 2012-08-27 | 2016-06-07 | Optio Labs, Inc. | Systems and methods for restricting access to network resources via in-location access point protocol |
CA2825635A1 (en) | 2012-08-28 | 2014-02-28 | Solink Corporation | Transaction verification system |
US9491167B2 (en) | 2012-09-11 | 2016-11-08 | Auraya Pty Ltd | Voice authentication system and method |
WO2014100236A1 (en) | 2012-12-19 | 2014-06-26 | Visa International Service Association | System and method for voice authentication |
US8856541B1 (en) * | 2013-01-10 | 2014-10-07 | Google Inc. | Liveness detection |
JP6424628B2 (ja) | 2013-01-17 | 2018-11-21 | 日本電気株式会社 | 話者識別装置、話者識別方法、および話者識別用プログラム |
TWI556098B (zh) | 2013-01-25 | 2016-11-01 | 高通公司 | 於一行動器件上之行為特徵之適應性觀察 |
CN103973441B (zh) | 2013-01-29 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 基于音视频的用户认证方法和装置 |
US9152869B2 (en) | 2013-02-26 | 2015-10-06 | Qtech Systems Inc. | Biometric authentication systems and methods |
US9218813B2 (en) | 2013-03-14 | 2015-12-22 | Intel Corporation | Voice and/or facial recognition based service provision |
US9721086B2 (en) | 2013-03-15 | 2017-08-01 | Advanced Elemental Technologies, Inc. | Methods and systems for secure and reliable identity-based computing |
US9263055B2 (en) | 2013-04-10 | 2016-02-16 | Google Inc. | Systems and methods for three-dimensional audio CAPTCHA |
US9317736B1 (en) | 2013-05-08 | 2016-04-19 | Amazon Technologies, Inc. | Individual record verification based on features |
US9679053B2 (en) | 2013-05-20 | 2017-06-13 | The Nielsen Company (Us), Llc | Detecting media watermarks in magnetic field data |
EP2816554A3 (en) | 2013-05-28 | 2015-03-25 | Samsung Electronics Co., Ltd | Method of executing voice recognition of electronic device and electronic device using the same |
GB2515527B (en) | 2013-06-26 | 2016-08-31 | Cirrus Logic Int Semiconductor Ltd | Speech Recognition |
US9697831B2 (en) | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
WO2015005927A1 (en) | 2013-07-11 | 2015-01-15 | Intel Corporation | Device wake and speaker verification using the same audio input |
US9711148B1 (en) | 2013-07-18 | 2017-07-18 | Google Inc. | Dual model speaker identification |
WO2015009111A1 (ko) | 2013-07-18 | 2015-01-22 | 삼성전자 주식회사 | 생체인식 기반 인증 방법 및 장치 |
US8994498B2 (en) | 2013-07-25 | 2015-03-31 | Bionym Inc. | Preauthorized wearable biometric device, system and method for use thereof |
US9523764B2 (en) | 2013-08-01 | 2016-12-20 | Symbol Technologies, Llc | Detection of multipath and transmit level adaptation thereto for ultrasonic locationing |
CN104347067B (zh) * | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US10030878B2 (en) | 2013-08-21 | 2018-07-24 | Honeywell International Inc. | User interaction with building controller device using a remote server and a duplex connection |
CN105493180B (zh) | 2013-08-26 | 2019-08-30 | 三星电子株式会社 | 用于语音识别的电子装置和方法 |
US9484036B2 (en) | 2013-08-28 | 2016-11-01 | Nuance Communications, Inc. | Method and apparatus for detecting synthesized speech |
US9865253B1 (en) * | 2013-09-03 | 2018-01-09 | VoiceCipher, Inc. | Synthetic speech discrimination systems and methods |
EP2860706A3 (en) | 2013-09-24 | 2015-08-12 | Agnitio S.L. | Anti-spoofing |
WO2015047032A1 (ko) | 2013-09-30 | 2015-04-02 | 삼성전자 주식회사 | 생체 신호에 기초하여 컨텐츠를 처리하는 방법, 및 그에 따른 디바이스 |
US20170049335A1 (en) | 2015-08-19 | 2017-02-23 | Logitech Europe, S.A. | Earphones with biometric sensors |
WO2015060867A1 (en) | 2013-10-25 | 2015-04-30 | Intel Corporation | Techniques for preventing voice replay attacks |
CN104143326B (zh) | 2013-12-03 | 2016-11-02 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
WO2015085237A1 (en) | 2013-12-06 | 2015-06-11 | Adt Us Holdings, Inc. | Voice activated application for mobile devices |
WO2015089332A1 (en) | 2013-12-11 | 2015-06-18 | Descartes Biometrics, Inc. | Ear-scan-based biometric subsystem |
US20150168996A1 (en) | 2013-12-17 | 2015-06-18 | United Sciences, Llc | In-ear wearable computer |
US9390726B1 (en) | 2013-12-30 | 2016-07-12 | Google Inc. | Supplementing speech commands with gestures |
EP2897076B8 (en) * | 2014-01-17 | 2018-02-07 | Cirrus Logic International Semiconductor Ltd. | Tamper-resistant element for use in speaker recognition |
US9430629B1 (en) | 2014-01-24 | 2016-08-30 | Microstrategy Incorporated | Performing biometrics in uncontrolled environments |
WO2015117674A1 (en) | 2014-02-07 | 2015-08-13 | Huawei Technologies Co., Ltd. | Method for unlocking a mobile communication device and a device thereof |
WO2015133782A1 (ko) | 2014-03-03 | 2015-09-11 | 삼성전자 주식회사 | 컨텐츠 분석 방법 및 디바이스 |
US10248770B2 (en) | 2014-03-17 | 2019-04-02 | Sensory, Incorporated | Unobtrusive verification of user identity |
US20150269945A1 (en) * | 2014-03-24 | 2015-09-24 | Thomas Jason Taylor | Voice-key electronic commerce |
US10540979B2 (en) | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
EP3134839A1 (en) | 2014-04-24 | 2017-03-01 | McAfee, Inc. | Methods and apparatus to enhance security of authentication |
US9412358B2 (en) | 2014-05-13 | 2016-08-09 | At&T Intellectual Property I, L.P. | System and method for data-driven socially customized models for language generation |
KR101598771B1 (ko) | 2014-06-11 | 2016-03-02 | 주식회사 슈프리마에이치큐 | 얼굴 인식 생체 인증 방법 및 장치 |
US9384738B2 (en) | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
KR102221676B1 (ko) | 2014-07-02 | 2021-03-02 | 삼성전자주식회사 | 자기장을 이용한 스피커 위치 검출 및 레벨 조절을 위한 사용자 단말 장치, 방법 및 오디오 시스템 |
EP3164865A1 (en) | 2014-07-04 | 2017-05-10 | Intel Corporation | Replay attack detection in automatic speaker verification systems |
US9613200B2 (en) | 2014-07-16 | 2017-04-04 | Descartes Biometrics, Inc. | Ear biometric capture, authentication, and identification method and system |
US10276166B2 (en) * | 2014-07-22 | 2019-04-30 | Nuance Communications, Inc. | Method and apparatus for detecting splicing attacks on a speaker verification system |
JP6480124B2 (ja) * | 2014-08-19 | 2019-03-06 | 大学共同利用機関法人情報・システム研究機構 | 生体検知装置、生体検知方法及びプログラム |
US9549273B2 (en) | 2014-08-28 | 2017-01-17 | Qualcomm Incorporated | Selective enabling of a component by a microphone circuit |
US9959863B2 (en) | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US10008208B2 (en) | 2014-09-18 | 2018-06-26 | Nuance Communications, Inc. | Method and apparatus for performing speaker recognition |
US9548979B1 (en) | 2014-09-19 | 2017-01-17 | United Services Automobile Association (Usaa) | Systems and methods for authentication program enrollment |
US9794653B2 (en) | 2014-09-27 | 2017-10-17 | Valencell, Inc. | Methods and apparatus for improving signal quality in wearable biometric monitoring devices |
JP6303971B2 (ja) | 2014-10-17 | 2018-04-04 | 富士通株式会社 | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム |
PL3016314T3 (pl) | 2014-10-28 | 2017-08-31 | Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie | System i sposób detekcji zapisanej informacji biometrycznej |
US9418656B2 (en) | 2014-10-29 | 2016-08-16 | Google Inc. | Multi-stage hotword detection |
US10262655B2 (en) | 2014-11-03 | 2019-04-16 | Microsoft Technology Licensing, Llc | Augmentation of key phrase user recognition |
US10318575B2 (en) | 2014-11-14 | 2019-06-11 | Zorroa Corporation | Systems and methods of building and using an image catalog |
US20160148012A1 (en) | 2014-11-19 | 2016-05-26 | Speechpro, Inc. | System, method and apparatus for voice biometric and interactive authentication |
WO2016090379A2 (en) | 2014-12-05 | 2016-06-09 | Texas State University | Detection of print-based spoofing attacks |
US20170323644A1 (en) | 2014-12-11 | 2017-11-09 | Nec Corporation | Speaker identification device and method for registering features of registered speech for identifying speaker |
US9473851B2 (en) | 2014-12-22 | 2016-10-18 | Qualcomm Incorporated | Speaker protection circuit with improved accuracy |
GB201509483D0 (en) | 2014-12-23 | 2015-07-15 | Cirrus Logic Internat Uk Ltd | Feature extraction |
US9437193B2 (en) | 2015-01-21 | 2016-09-06 | Microsoft Technology Licensing, Llc | Environment adjusted speaker identification |
US9734410B2 (en) | 2015-01-23 | 2017-08-15 | Shindig, Inc. | Systems and methods for analyzing facial expressions within an online classroom to gauge participant attentiveness |
US9300801B1 (en) | 2015-01-30 | 2016-03-29 | Mattersight Corporation | Personality analysis of mono-recording system and methods |
US20170011406A1 (en) | 2015-02-10 | 2017-01-12 | NXT-ID, Inc. | Sound-Directed or Behavior-Directed Method and System for Authenticating a User and Executing a Transaction |
US9305155B1 (en) | 2015-02-12 | 2016-04-05 | United Services Automobile Association (Usaa) | Toggling biometric authentication |
US10476872B2 (en) | 2015-02-20 | 2019-11-12 | Sri International | Joint speaker authentication and key phrase identification |
US10305895B2 (en) | 2015-04-14 | 2019-05-28 | Blubox Security, Inc. | Multi-factor and multi-mode biometric physical access control device |
JP6596376B2 (ja) | 2015-04-22 | 2019-10-23 | パナソニック株式会社 | 話者識別方法及び話者識別装置 |
US10709388B2 (en) | 2015-05-08 | 2020-07-14 | Staton Techiya, Llc | Biometric, physiological or environmental monitoring using a closed chamber |
US20180292523A1 (en) | 2015-05-31 | 2018-10-11 | Sens4Care | Remote monitoring system of human activity |
US9641585B2 (en) | 2015-06-08 | 2017-05-02 | Cisco Technology, Inc. | Automated video editing based on activity in video conference |
MY182294A (en) | 2015-06-16 | 2021-01-18 | Eyeverify Inc | Systems and methods for spoof detection and liveness analysis |
CN105185380B (zh) | 2015-06-24 | 2020-06-23 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
US10178301B1 (en) | 2015-06-25 | 2019-01-08 | Amazon Technologies, Inc. | User identification based on voice and face |
US10546183B2 (en) * | 2015-08-10 | 2020-01-28 | Yoti Holding Limited | Liveness detection |
GB2541466B (en) * | 2015-08-21 | 2020-01-01 | Validsoft Ltd | Replay attack detection |
US10277581B2 (en) | 2015-09-08 | 2019-04-30 | Oath, Inc. | Audio verification |
US9699546B2 (en) | 2015-09-16 | 2017-07-04 | Apple Inc. | Earbuds with biometric sensing |
US10856068B2 (en) | 2015-09-16 | 2020-12-01 | Apple Inc. | Earbuds |
CN108135576A (zh) | 2015-09-30 | 2018-06-08 | 皇家飞利浦有限公司 | 用于确定对象的医学状况的超声装置和方法 |
EP3156978A1 (en) | 2015-10-14 | 2017-04-19 | Samsung Electronics Polska Sp. z o.o. | A system and a method for secure speaker verification |
KR102405793B1 (ko) | 2015-10-15 | 2022-06-08 | 삼성전자 주식회사 | 음성 신호 인식 방법 및 이를 제공하는 전자 장치 |
JP6463710B2 (ja) | 2015-10-16 | 2019-02-06 | グーグル エルエルシー | ホットワード認識 |
US9613245B1 (en) | 2015-10-22 | 2017-04-04 | Motorola Mobility Llc | Device and method for authentication by a biometric sensor |
US10062388B2 (en) | 2015-10-22 | 2018-08-28 | Motorola Mobility Llc | Acoustic and surface vibration authentication |
US10937407B2 (en) | 2015-10-26 | 2021-03-02 | Staton Techiya, Llc | Biometric, physiological or environmental monitoring using a closed chamber |
CN105244031A (zh) | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
JP6324939B2 (ja) | 2015-11-05 | 2018-05-16 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置およびログイン制御方法 |
US20170150254A1 (en) | 2015-11-19 | 2017-05-25 | Vocalzoom Systems Ltd. | System, device, and method of sound isolation and signal enhancement |
US9691392B1 (en) | 2015-12-09 | 2017-06-27 | Uniphore Software Systems | System and method for improved audio consistency |
CN105933272A (zh) | 2015-12-30 | 2016-09-07 | 中国银联股份有限公司 | 能够防止录音攻击的声纹认证方法、服务器、终端及系统 |
CN105702263B (zh) | 2016-01-06 | 2019-08-30 | 清华大学 | 语音重放检测方法和装置 |
US9613640B1 (en) | 2016-01-14 | 2017-04-04 | Audyssey Laboratories, Inc. | Speech/music discrimination |
WO2017127646A1 (en) | 2016-01-22 | 2017-07-27 | Knowles Electronics, Llc | Shared secret voice authentication |
DE102016000630A1 (de) | 2016-01-25 | 2017-07-27 | Boxine Gmbh | Spielzeug |
SG10201600561YA (en) | 2016-01-25 | 2017-08-30 | Mastercard Asia Pacific Pte Ltd | A Method For Facilitating A Transaction Using A Humanoid Robot |
US11783524B2 (en) | 2016-02-10 | 2023-10-10 | Nitin Vats | Producing realistic talking face with expression using images text and voice |
US10262188B2 (en) | 2016-02-15 | 2019-04-16 | Qualcomm Incorporated | Liveness and spoof detection for ultrasonic fingerprint sensors |
US10372889B2 (en) | 2016-02-19 | 2019-08-06 | At&T Mobility Ii Llc | Event characteristic analysis for event input discrimination |
US20170256270A1 (en) | 2016-03-02 | 2017-09-07 | Motorola Mobility Llc | Voice Recognition Accuracy in High Noise Conditions |
US10476888B2 (en) | 2016-03-23 | 2019-11-12 | Georgia Tech Research Corporation | Systems and methods for using video for user and message authentication |
US9972322B2 (en) | 2016-03-29 | 2018-05-15 | Intel Corporation | Speaker recognition using adaptive thresholding |
US9706304B1 (en) | 2016-03-29 | 2017-07-11 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to control audio output for a particular ear of a user |
CN105938716B (zh) | 2016-03-30 | 2019-05-28 | 浙江大学 | 一种基于多精度拟合的样本复制语音自动检测方法 |
CN105913855B (zh) | 2016-04-11 | 2019-11-22 | 宁波大学 | 一种基于长窗比例因子的回放语音攻击检测算法 |
KR102501243B1 (ko) | 2016-04-12 | 2023-02-17 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
US10728659B2 (en) | 2016-05-02 | 2020-07-28 | Purifi Aps | Method of controlling loudspeaker diaphragm excursion |
US9984314B2 (en) | 2016-05-06 | 2018-05-29 | Microsoft Technology Licensing, Llc | Dynamic classifier selection based on class skew |
US20170347348A1 (en) | 2016-05-25 | 2017-11-30 | Smartear, Inc. | In-Ear Utility Device Having Information Sharing |
JP2019523581A (ja) | 2016-05-27 | 2019-08-22 | ブガトーン リミテッド | ユーザの耳におけるイヤピースの存在の判定 |
CN109313902A (zh) | 2016-06-06 | 2019-02-05 | 思睿逻辑国际半导体有限公司 | 语音用户接口 |
US10635800B2 (en) | 2016-06-07 | 2020-04-28 | Vocalzoom Systems Ltd. | System, device, and method of voice-based user authentication utilizing a challenge |
US9960741B2 (en) | 2016-06-27 | 2018-05-01 | Dialog Semiconductor (Uk) Limited | High frequency common mode rejection technique for large dynamic common mode signals |
CN105869630B (zh) | 2016-06-27 | 2019-08-02 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
CA3172758A1 (en) | 2016-07-11 | 2018-01-18 | FTR Labs Pty Ltd | Method and system for automatically diarising a sound recording |
US10433052B2 (en) | 2016-07-16 | 2019-10-01 | Ron Zass | System and method for identifying speech prosody |
KR20180013524A (ko) | 2016-07-29 | 2018-02-07 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 생체 정보 인증 방법 |
GB2552723A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
GB2552721A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Methods and apparatus for authentication in an electronic device |
US9892732B1 (en) | 2016-08-12 | 2018-02-13 | Paypal, Inc. | Location based voice recognition system |
US10079024B1 (en) | 2016-08-19 | 2018-09-18 | Amazon Technologies, Inc. | Detecting replay attacks in voice-based authentication |
CN106297772B (zh) | 2016-08-24 | 2019-06-25 | 武汉大学 | 基于扬声器引入的语音信号失真特性的回放攻击检测方法 |
EP3287921B1 (en) * | 2016-08-26 | 2020-11-04 | Nxp B.V. | Spoken pass-phrase suitability determination |
US10223512B2 (en) | 2016-08-25 | 2019-03-05 | Sensory, Incorporated | Voice-based liveness verification |
US10460095B2 (en) | 2016-09-30 | 2019-10-29 | Bragi GmbH | Earpiece with biometric identifiers |
US10210723B2 (en) | 2016-10-17 | 2019-02-19 | At&T Intellectual Property I, L.P. | Wearable ultrasonic sensors with haptic signaling for blindside risk detection and notification |
US10198626B2 (en) | 2016-10-19 | 2019-02-05 | Snap Inc. | Neural networks for facial modeling |
US10678502B2 (en) | 2016-10-20 | 2020-06-09 | Qualcomm Incorporated | Systems and methods for in-ear control of remote devices |
JP2018074366A (ja) | 2016-10-28 | 2018-05-10 | 京セラ株式会社 | 電子機器、制御方法およびプログラム |
US20180146370A1 (en) * | 2016-11-22 | 2018-05-24 | Ashok Krishnaswamy | Method and apparatus for secured authentication using voice biometrics and watermarking |
CN106531172B (zh) | 2016-11-23 | 2019-06-14 | 湖北大学 | 基于环境噪声变化检测的说话人语音回放鉴别方法及系统 |
KR102072235B1 (ko) | 2016-12-08 | 2020-02-03 | 한국전자통신연구원 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
US10497382B2 (en) | 2016-12-16 | 2019-12-03 | Google Llc | Associating faces with voices for speaker diarization within videos |
US10432623B2 (en) | 2016-12-16 | 2019-10-01 | Plantronics, Inc. | Companion out-of-band authentication |
EP3555882B1 (en) | 2016-12-19 | 2021-10-27 | Rovi Guides, Inc. | Systems and methods for distinguishing valid voice commands from false voice commands in an interactive media guidance application |
US10192553B1 (en) | 2016-12-20 | 2019-01-29 | Amazon Technologes, Inc. | Initiating device speech activity monitoring for communication sessions |
US10032451B1 (en) | 2016-12-20 | 2018-07-24 | Amazon Technologies, Inc. | User recognition for speech processing systems |
US10237070B2 (en) | 2016-12-31 | 2019-03-19 | Nok Nok Labs, Inc. | System and method for sharing keys across authenticators |
US20180187969A1 (en) | 2017-01-03 | 2018-07-05 | Samsung Electronics Co., Ltd. | Refrigerator |
KR102700049B1 (ko) | 2017-02-03 | 2024-08-29 | 삼성전자주식회사 | 생체 정보 인증을 위한 전자 장치 및 시스템 |
US10467510B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
US10360916B2 (en) | 2017-02-22 | 2019-07-23 | Plantronics, Inc. | Enhanced voiceprint authentication |
US10692502B2 (en) | 2017-03-03 | 2020-06-23 | Pindrop Security, Inc. | Method and apparatus for detecting spoofing conditions |
US9990926B1 (en) | 2017-03-13 | 2018-06-05 | Intel Corporation | Passive enrollment method for speaker identification systems |
US10764043B2 (en) * | 2017-04-05 | 2020-09-01 | University Of Florida Research Foundation, Incorporated | Identity and content authentication for phone calls |
US10347244B2 (en) | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
US10313782B2 (en) | 2017-05-04 | 2019-06-04 | Apple Inc. | Automatic speech recognition triggering system |
US10311870B2 (en) | 2017-05-10 | 2019-06-04 | Ecobee Inc. | Computerized device with voice command input capability |
DK179867B1 (en) | 2017-05-16 | 2019-08-06 | Apple Inc. | RECORDING AND SENDING EMOJI |
US10410634B2 (en) | 2017-05-18 | 2019-09-10 | Smartear, Inc. | Ear-borne audio device conversation recording and compressed data transmission |
EP3625718B1 (en) | 2017-05-19 | 2021-09-08 | Plantronics, Inc. | Headset for acoustic authentication of a user |
US10210685B2 (en) | 2017-05-23 | 2019-02-19 | Mastercard International Incorporated | Voice biometric analysis systems and methods for verbal transactions conducted over a communications network |
KR102371313B1 (ko) | 2017-05-29 | 2022-03-08 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
US11354390B2 (en) | 2017-06-04 | 2022-06-07 | Apple Inc. | Biometric authentication with user input |
US10469946B2 (en) | 2017-06-06 | 2019-11-05 | Facebook Technologies, Llc | Over-ear speaker system for head-mounted display unit |
HUE051594T2 (hu) | 2017-06-13 | 2021-03-01 | Beijing Didi Infinity Tech And | Eljárás és rendszer a beszélõ hitelesítésére |
US10339935B2 (en) | 2017-06-19 | 2019-07-02 | Intel Corporation | Context-aware enrollment for text independent speaker recognition |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
CN107464115A (zh) * | 2017-07-20 | 2017-12-12 | 北京小米移动软件有限公司 | 个人特征信息验证方法及装置 |
CN107680602A (zh) * | 2017-08-24 | 2018-02-09 | 平安科技(深圳)有限公司 | 语音欺诈识别方法、装置、终端设备及存储介质 |
JP7197259B2 (ja) | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
JP7123540B2 (ja) | 2017-09-25 | 2022-08-23 | キヤノン株式会社 | 音声情報による入力を受け付ける情報処理端末、方法、その情報処理端末を含むシステム |
US10733987B1 (en) | 2017-09-26 | 2020-08-04 | Amazon Technologies, Inc. | System and methods for providing unplayed content |
US10692492B2 (en) | 2017-09-29 | 2020-06-23 | Intel IP Corporation | Techniques for client-side speech domain detection using gyroscopic data and a system using the same |
GB2567018B (en) | 2017-09-29 | 2020-04-01 | Cirrus Logic Int Semiconductor Ltd | Microphone authentication |
US11769510B2 (en) | 2017-09-29 | 2023-09-26 | Cirrus Logic Inc. | Microphone authentication |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB2567703B (en) | 2017-10-20 | 2022-07-13 | Cirrus Logic Int Semiconductor Ltd | Secure voice biometric authentication |
US10515640B2 (en) | 2017-11-08 | 2019-12-24 | Intel Corporation | Generating dialogue based on verification scores |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US10733276B2 (en) | 2017-12-08 | 2020-08-04 | Cirrus Logic International Semiconductor Ltd. | Multi-microphone human talker detection |
NO344671B1 (en) | 2017-12-21 | 2020-03-02 | Elliptic Laboratories As | Contextual display |
US10573323B2 (en) | 2017-12-26 | 2020-02-25 | Intel Corporation | Speaker recognition based on vibration signals |
CN108039176B (zh) * | 2018-01-11 | 2021-06-18 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US10834365B2 (en) | 2018-02-08 | 2020-11-10 | Nortek Security & Control Llc | Audio-visual monitoring using a virtual assistant |
US11335079B2 (en) | 2018-03-05 | 2022-05-17 | Intel Corporation | Method and system of reflection suppression for image processing |
US10063542B1 (en) | 2018-03-16 | 2018-08-28 | Fmr Llc | Systems and methods for simultaneous voice and sound multifactor authentication |
US10878825B2 (en) | 2018-03-21 | 2020-12-29 | Cirrus Logic, Inc. | Biometric processes |
US10720166B2 (en) | 2018-04-09 | 2020-07-21 | Synaptics Incorporated | Voice biometrics systems and methods |
US10685075B2 (en) | 2018-04-11 | 2020-06-16 | Motorola Solutions, Inc. | System and method for tailoring an electronic digital assistant query as a function of captured multi-party voice dialog and an electronically stored multi-party voice-interaction template |
US11196669B2 (en) | 2018-05-17 | 2021-12-07 | At&T Intellectual Property I, L.P. | Network routing of media streams based upon semantic contents |
WO2019231252A1 (en) | 2018-05-31 | 2019-12-05 | Samsung Electronics Co., Ltd. | Electronic device for authenticating user and operating method thereof |
LU100813B1 (en) | 2018-06-05 | 2019-12-05 | Essence Smartcare Ltd | Identifying a location of a person |
US10904246B2 (en) | 2018-06-26 | 2021-01-26 | International Business Machines Corporation | Single channel input multi-factor authentication via separate processing pathways |
US10593336B2 (en) * | 2018-07-26 | 2020-03-17 | Accenture Global Solutions Limited | Machine learning for authenticating voice |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
-
2018
- 2018-07-31 US US16/050,593 patent/US10692490B2/en active Active
-
2019
- 2019-07-31 US US17/261,786 patent/US20210256971A1/en active Pending
- 2019-07-31 CN CN201980045601.5A patent/CN112424860A/zh active Pending
- 2019-07-31 GB GB2202521.7A patent/GB2604747B/en active Active
- 2019-07-31 GB GB2019144.1A patent/GB2588040B/en active Active
- 2019-07-31 KR KR1020217000242A patent/KR20210038871A/ko unknown
- 2019-07-31 WO PCT/GB2019/052143 patent/WO2020025951A1/en active Application Filing
-
2020
- 2020-05-07 US US16/869,176 patent/US11631402B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
GB2604747B (en) | 2023-03-29 |
GB2588040B (en) | 2022-04-13 |
US11631402B2 (en) | 2023-04-18 |
GB2604747A (en) | 2022-09-14 |
US20210256971A1 (en) | 2021-08-19 |
GB202202521D0 (en) | 2022-04-13 |
CN112424860A (zh) | 2021-02-26 |
GB202019144D0 (en) | 2021-01-20 |
US20200043484A1 (en) | 2020-02-06 |
GB2588040A (en) | 2021-04-14 |
WO2020025951A1 (en) | 2020-02-06 |
US10692490B2 (en) | 2020-06-23 |
US20200265834A1 (en) | 2020-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210038871A (ko) | 리플레이 공격의 탐지 | |
US12026241B2 (en) | Detection of replay attack | |
CN110832580B (zh) | 重放攻击的检测 | |
US11270707B2 (en) | Analysing speech signals | |
US20200227071A1 (en) | Analysing speech signals | |
US8589167B2 (en) | Speaker liveness detection | |
CA3054063A1 (en) | Method and apparatus for detecting spoofing conditions | |
US20230290335A1 (en) | Detection of live speech | |
US10839810B2 (en) | Speaker enrollment | |
JP6480124B2 (ja) | 生体検知装置、生体検知方法及びプログラム | |
CN111201568A (zh) | 现场性的检测 | |
CN111201570A (zh) | 分析话语信号 | |
US20230343359A1 (en) | Live speech detection | |
Le et al. | Discriminate natural versus loudspeaker emitted speech | |
Kuhnapfel et al. | Adaptive speech enhancement with varying noise backgrounds | |
Kuhnapfel et al. | Deakin Research Online |