KR20200062320A - 생기의 검출 - Google Patents

생기의 검출 Download PDF

Info

Publication number
KR20200062320A
KR20200062320A KR1020207013319A KR20207013319A KR20200062320A KR 20200062320 A KR20200062320 A KR 20200062320A KR 1020207013319 A KR1020207013319 A KR 1020207013319A KR 20207013319 A KR20207013319 A KR 20207013319A KR 20200062320 A KR20200062320 A KR 20200062320A
Authority
KR
South Korea
Prior art keywords
signal
ultrasonic
audio band
audio
speech
Prior art date
Application number
KR1020207013319A
Other languages
English (en)
Inventor
존 폴 레쏘
Original Assignee
시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB1801661.8A external-priority patent/GB201801661D0/en
Priority claimed from GBGB1801663.4A external-priority patent/GB201801663D0/en
Priority claimed from GBGB1801664.2A external-priority patent/GB201801664D0/en
Priority claimed from GBGB1801874.7A external-priority patent/GB201801874D0/en
Application filed by 시러스 로직 인터내셔널 세미컨덕터 리미티드 filed Critical 시러스 로직 인터내셔널 세미컨덕터 리미티드
Publication of KR20200062320A publication Critical patent/KR20200062320A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/50Systems of measurement, based on relative movement of the target
    • G01S15/52Discriminating between fixed and moving objects or between objects moving at different speeds
    • G01S15/523Discriminating between fixed and moving objects or between objects moving at different speeds for presence detection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/52004Means for monitoring or calibrating
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/523Details of pulse systems
    • G01S7/524Transmitters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/539Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B8/00Diagnosis using ultrasonic, sonic or infrasonic waves
    • A61B8/48Diagnostic techniques
    • A61B8/488Diagnostic techniques involving Doppler signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephone Function (AREA)

Abstract

음성 바이오메트릭 시스템에 관한 재생 공격을 검출하는 것은: 스피치 신호(speech signal)를 수신하는 것; 초음파 신호를 생성하는 것; 생성된 초음파 신호의 반사를 검출하는 것; 생성된 초음파 신호의 반사에서 도플러 편이를 검출하는 것; 및 수신된 스피치 신호가 화자의 생기(liveness)를 나타내는지를 검출된 도플러 편이에 기초하여 식별하는 것을 포함한다. 수신된 스피치 신호가 생기를 나타내는지를 검출된 도플러 편이에 기초하여 식별하는 것은, 검출된 도플러 편이가 스피치 분절률(speech articulation rate)에 대응하는지를 결정하는 것을 포함한다.

Description

생기의 검출
본 명세서에 설명된 실시예들은 화자의 생기(liveness)를 검출하기 위한 방법 및 디바이스에 관한 것이다. 한 예로서, 생기 검출은 음성 바이오메트릭 시스템에서 재생 공격(replay attack)을 검출하는데 이용될 수 있다.
또한, 본 명세서에 설명된 실시예들은 스피치 처리 시스템의 견고성을 개선하기 위한 방법 및 디바이스에 관한 것이다.
바이오메트릭 시스템이 널리 이용되고 있다. 음성 바이오메트릭 시스템에서, 사용자는 등록 단계 동안에 자신의 스피치 샘플을 제공함으로써 시스템을 훈련시킨다. 후속 이용에서, 시스템은 등록된 사용자와 미등록 화자를 구별할 수 있다. 음성 바이오메트릭 시스템은 원칙적으로 광범위한 서비스 및 시스템에 대한 액세스를 제어하는데 이용될 수 있다.
악의적인 당사자가 음성 바이오메트릭 시스템을 무력화하려고 시도하는 한 가지 방식은, 등록된 사용자의 스피치의 녹음을 획득하고, 등록된 사용자만으로 제약하려는 서비스에 액세스하게 되고 등록된 사용자인 것처럼 가장하려는 시도로서 그 녹음을 재생하는 것이다.
이것은, 재생 공격(replay attack) 또는 스푸핑 공격(spoofing attack)이라고 지칭된다.
얼굴 인식, 또는 다른 유형의 바이오메트릭 시스템에서, 시스템은 사용자의 특징을 인식한다. 다시, 악의적인 당사자가 이러한 바이오메트릭 시스템을 무력화하려고 시도하는 한 가지 방식은, 등록된 사용자의 사진 또는 비디오 기록을 시스템에 제시하는 것이다.
또한, 많은 디바이스는, 주변 사운드를 검출하는데 이용할 수 있는 마이크로폰을 포함한다. 많은 상황에서, 주변 사운드는 하나 이상의 근처 화자의 스피치를 포함한다. 마이크로폰에 의해 생성된 오디오 신호는 많은 방식으로 이용될 수 있다. 예를 들어, 스피치를 나타내는 오디오 신호는 스피치 인식 시스템에 대한 입력으로서 이용될 수 있어서, 사용자가 구두 명령(spoken command)을 이용하여 디바이스 또는 시스템을 제어하는 것을 허용한다.
초음파 신호를 전송함으로써 이러한 시스템의 동작을 간섭하는 것이 가능하다고 제안되어 왔는데, 이것은, 정의상 디바이스의 사용자에게는 들리지 않지만, 디바이스 내의 전자 회로의 비선형 컴포넌트들에 의해 오디오 주파수 대역의 신호로 변환되고, 스피치 인식 시스템에 의해 스피치로서 인식될 것이다. 이러한 악의적인 초음파-기반의 공격은, 돌고래가 초음파 오디오 대역에서 통신하는 방식과의 유사성으로 인해, 때때로 "돌고래 공격"이라고 한다.
본 발명의 제1 양태에 따르면, 생기 검출 방법이 제공된다. 이 방법은: 스피치 신호를 수신하는 단계; 초음파 신호를 생성하는 단계; 생성된 초음파 신호의 반사를 검출하는 단계; 생성된 초음파 신호의 반사에서 도플러 편이를 검출하는 단계; 및 수신된 스피치 신호가 화자의 생기를 나타내는지를 검출된 도플러 편이에 기초하여 식별하는 단계를 포함한다. 수신된 스피치 신호가 생기를 나타내는지를 검출된 도플러 편이에 기초하여 식별하는 단계는, 검출된 도플러 편이가 스피치 분절률(speech articulation rate)에 대응하는지를 결정하는 단계를 포함한다.
본 발명의 또 다른 양태에 따르면, 제1 양태의 방법을 수행하도록 구성된 시스템이 제공된다.
본 발명의 또 다른 양태에 따르면, 이러한 시스템을 포함하는 디바이스가 제공된다. 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함할 수 있다.
본 발명의 또 다른 양태에 따르면, 컴퓨터 판독가능한 유형의 매체 및 제1 양태에 따른 방법을 수행하기 위한 명령어를 포함하는 컴퓨터 프로그램 제품이 제공된다.
본 발명의 또 다른 양태에 따르면, 프로세서 회로에 의해 실행될 때 프로세서 회로로 하여금 제1 양태에 따른 방법을 수행하게 하는 컴퓨터 실행가능한 명령어가 저장된 비일시적인 컴퓨터 판독가능한 저장 매체가 제공된다.
본 발명의 제2 양태에 따르면, 화자의 생기를 검출하는 방법이 제공되며, 이 방법은: 초음파 신호를 생성하는 단계; 초음파 신호의 반사를 포함하는 오디오 신호를 수신하는 단계; 초음파 신호의 반사를 포함하는 수신된 오디오 신호를 이용하여 화자의 생기를 검출하는 단계; 주변 초음파 노이즈를 모니터링하는 단계; 및 반사된 초음파의 레벨 및 모니터링된 주변 초음파 노이즈에 기초하여, 오디오 신호를 수신하는 시스템의 동작을 조정하는 단계를 포함한다. 이 방법은, 음성 바이오메트릭 시스템에서 이용될 수 있으며, 이 경우 화자의 생기를 검출하는 단계는 수신된 스피치 신호가 재생 공격의 생성물일 수 있는지를 결정하는 단계를 포함한다. 음성 바이오메트릭 시스템의 동작은, 반사된 초음파의 레벨 및 모니터링된 주변 초음파 노이즈에 기초하여 조정될 수 있다.
본 발명의 또 다른 양태에 따르면, 생기 검출을 위한 시스템이 제공되며, 이 시스템은 제2 양태의 방법을 수행하도록 구성된다.
본 발명의 또 다른 양태에 따르면, 이러한 시스템을 포함하는 디바이스가 제공된다. 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함할 수 있다.
본 발명의 또 다른 양태에 따르면, 컴퓨터 판독가능한 유형의 매체 및 제2 양태에 따른 방법을 수행하기 위한 명령어를 포함하는 컴퓨터 프로그램 제품이 제공된다.
본 발명의 또 다른 양태에 따르면, 프로세서 회로에 의해 실행될 때 프로세서 회로로 하여금 제2 양태에 따른 방법을 수행하게 하는 컴퓨터 실행가능한 명령어가 저장된 비일시적인 컴퓨터 판독가능한 저장 매체가 제공된다.
본 발명의 제3 양태에 따르면, 디바이스에서의 생기 검출 방법이 제공된다. 이 방법은: 음성 소스로부터 스피치 신호를 수신하는 단계; 디바이스의 트랜스듀서를 통해 초음파 신호를 생성 및 전송하는 단계; 전송된 초음파 신호의 반사를 검출하는 단계; 생성된 초음파 신호의 반사에서 도플러 편이를 검출하는 단계; 및 수신된 스피치 신호가 화자의 생기를 나타내는지를 검출된 도플러 편이에 기초하여 식별하는 단계를 포함한다. 이 방법은: 디바이스의 위치에 관한 정보를 획득하는 단계; 및 디바이스의 위치에 관한 정보에 기초하여 초음파 신호의 생성 및 전송을 적합화(adapt)하는 단계를 더 포함한다.
본 발명의 또 다른 양태에 따르면, 생기 검출을 위한 시스템이 제공되며, 이 시스템은 제3 양태의 방법을 수행하도록 구성된다.
본 발명의 또 다른 양태에 따르면, 이러한 시스템을 포함하는 디바이스가 제공된다. 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함할 수 있다.
본 발명의 또 다른 양태에 따르면, 컴퓨터 판독가능한 유형의 매체, 및 제3 양태에 따른 방법을 수행하기 위한 명령어를 포함하는 컴퓨터 프로그램 제품이 제공된다.
본 발명의 또 다른 양태에 따르면, 프로세서 회로에 의해 실행될 때 프로세서 회로로 하여금 제3 양태에 따른 방법을 수행하게 하는 컴퓨터 실행가능한 명령어가 저장된 비일시적인 컴퓨터 판독가능한 저장 매체가 제공된다.
본 발명의 제4 양태에 따르면, 적어도 하나의 스피치 처리 모듈을 갖는 스피치 처리 시스템의 견고성을 개선하기 위한 방법이 제공되며, 이 방법은: 오디오 및 비오디오 주파수를 포함하는 입력 사운드 신호를 수신하는 단계; 입력 사운드 신호를 오디오 대역 성분 및 비오디오 대역 성분으로 분리하는 단계; 비오디오 대역 성분으로부터의 오디오 대역 내의 가능한 간섭을 식별하는 단계; 및 상기 식별에 기초하여 다운스트림 스피치 처리 모듈의 동작을 조정하는 단계를 포함한다.
본 발명의 또 다른 양태에 따르면, 제4 양태의 방법에 따라 동작하도록 구성된, 스피치 처리 시스템의 견고성을 개선하기 위한 시스템이 제공된다.
본 발명의 또 다른 양태에 따르면, 이러한 시스템을 포함하는 디바이스가 제공된다. 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함할 수 있다.
본 발명의 또 다른 양태에 따르면, 컴퓨터 판독가능한 유형의 매체, 및 제4 양태에 따른 방법을 수행하기 위한 명령어를 포함하는 컴퓨터 프로그램 제품이 제공된다.
본 발명의 또 다른 양태에 따르면, 프로세서 회로에 의해 실행될 때 프로세서 회로로 하여금 제4 양태에 따른 방법을 수행하게 하는 컴퓨터 실행가능한 명령어가 저장된 비일시적인 컴퓨터 판독가능한 저장 매체가 제공된다.
본 발명의 더 나은 이해를 위해, 및 어떻게 효력을 나타내는지를 보여주기 위해, 이제 첨부된 도면들에 대해 참조가 이루어질 것이며, 도면들에서:
도 1은 스마트폰을 도시한다.
도 2는 스마트폰의 형태를 도시하는 개략도이다.
도 3은 재생 공격이 수행되고 있는 상황을 도시한다;
도 4는 생기(liveness)를 검출하는 방법을 도시하는 플로차트이다;
도 5는 생기를 검출하기 위한 시스템을 포함하는 스피치 처리 시스템을 도시한다;
도 6은 생기를 검출하는 방법의 일부를 도시하는 플로차트이다;
도 7은 스마트폰의 다양한 가능한 이용을 도시한다;
도 8은 생기를 검출하는 방법의 일부를 도시하는 플로차트이다;
도 9는 생기를 검출하는 방법의 일부를 도시하는 플로차트이다;
도 10은 생기를 검출하기 위한 시스템의 일부를 도시하는 블록도이다;
도 11은 생기를 검출하는 방법의 결과를 도시한다;
도 12는 스마트폰을 도시한다;
도 13은 스마트폰의 형태를 도시하는 개략도이다;
도 14는 스피치 처리 시스템을 도시한다;
도 15는 스피치 처리 시스템을 이용하는 효과를 도시한다;
도 16은 오디오 신호를 처리하는 방법을 도시하는 플로차트이다;
도 17은 도 16의 방법을 이용하는 시스템을 도시하는 블록도이다;
도 18은 도 16의 방법을 이용하는 시스템을 도시하는 블록도이다;
도 19는 도 16의 방법을 이용하는 시스템의 블록도이다;
도 20은 도 16의 방법을 이용하는 시스템의 블록도이다;
도 21은 도 16의 방법을 이용하는 시스템의 블록도이다;
도 22는 도 16의 방법을 이용하는 시스템의 블록도이다;
도 23은 도 16의 방법을 이용하는 시스템의 블록도이다; 및
도 24는 도 16의 방법을 이용하는 시스템의 블록도이다.
이하의 설명은 본 개시내용에 따른 예시적인 실시예들을 제시한다. 추가의 예시적인 실시예들 및 구현들은 본 기술분야의 통상의 기술자에게 명백할 것이다. 또한, 본 기술분야의 통상의 기술자라면, 이하에서 논의되는 실시예 대신에 또는 이와 연계하여 다양한 균등한 기술이 적용될 수 있고, 이러한 균등물은 모두 본 개시내용에 의해 포괄되는 것으로 간주되어야 한다는 것을 인식할 것이다.
본 발명의 한 예는, 예로서, 스마트폰에서의 이용을 참조하여 예시되지만, 이하에서 더 상세히 설명되는 바와 같이, 임의의 적절한 디바이스에서 구현될 수 있다는 것을 이해할 것이다.
도 1은 주변 사운드를 검출하기 위한 마이크로폰(112)을 갖는 스마트폰(110)을 도시한다. 보통의 이용에서, 마이크로폰은 물론, 스마트폰(110)을 잡고 있는 사용자의 스피치를 검출하는데 이용된다.
스마트폰(110)은 또한, 2개의 확성기(114, 116)를 갖는다. 제1 확성기(114)는, 스마트폰(110)을 음성 통화를 위한 정상 동작 위치에서 잡고 있을 때 스마트폰(110)의 상단에 위치하고, 그 통화의 원격 당사자로부터 수신된 사운드를 재생하는데 이용된다.
제2 확성기(116)는 스마트폰(110)의 하단에 위치하고, 로컬 또는 원격 소스로부터의 미디어 콘텐츠를 재생하는데 이용된다. 따라서, 제2 확성기(116)는 스마트폰(110)에 저장된 음악 또는 인터넷을 통해 액세스되는 비디오와 연관된 사운드를 재생하는데 이용된다.
도시된 스마트폰(110)은 또한, 2개의 추가 마이크로폰(112a, 112b)을 갖는다. 디바이스에 존재하는 경우, 추가 마이크로폰은 임의의 적절한 위치에 제공될 수 있다. 이 도시된 디바이스에서, 하나의 마이크로폰(112a)은 디바이스의 전면 상단에 위치하고, 또 다른 마이크로폰(112b)은 디바이스 측면의 상단에 위치한다.
도 2는 스마트폰(110)의 형태를 나타내는 개략도이다.
구체적으로, 도 2는 스마트폰(110)의 다양한 상호접속된 컴포넌트들을 도시한다. 스마트폰(110)은 실제로 많은 다른 컴포넌트를 포함할 것이지만, 이하의 설명은 본 발명의 이해를 위해 충분하다는 것을 이해할 것이다.
따라서, 도 2는 앞서 언급된 마이크로폰(112)을 도시한다. 이 특정한 예시된 실시예에서, 스마트폰(110)에는 복수의 마이크로폰(112, 112a, 112b) 등이 제공된다. 도 2는 또한 확성기(114, 116)를 도시한다.
도 2는 또한, 실제로 단일 컴포넌트 또는 복수의 컴포넌트로서 제공될 수 있는 메모리(118)를 도시한다. 메모리(118)는 데이터 및 프로그램 명령어를 저장하기 위해 제공된다.
도 2는 또한, 실제로 단일 컴포넌트 또는 복수의 컴포넌트로서 다시 제공될 수 있는 프로세서(120)를 도시한다. 예를 들어, 프로세서(120)의 한 컴포넌트는 스마트폰(110)의 애플리케이션 프로세서일 수 있다.
도 2는 또한, 스마트폰(110)이 외부 네트워크와 통신하는 것을 허용하기 위해 제공되는 트랜시버(122)를 도시한다. 예를 들어, 트랜시버(122)는, WiFi 근거리 네트워크를 통해 및/또는 셀룰러 네트워크를 통해 인터넷 접속을 확립하기 위한 회로를 포함할 수 있다.
도 2는 또한, 요구된다면 마이크로폰(112)에 의해 검출된 오디오 신호에 관한 동작을 수행하기 위한 오디오 처리 회로(124)를 도시한다. 예를 들어, 오디오 처리 회로(124)는 오디오 신호를 필터링하거나 다른 신호 처리 동작을 수행할 수 있다.
오디오 신호 처리 회로는 또한, 아래에서 더 상세히 논의되는 바와 같이, 확성기(114, 116)를 통해 재생하기 위한 오디오 신호를 생성할 수 있다.
도 2는 또한, 스마트폰(110)이 하나 이상의 센서(126)를 포함할 수 있다는 것을 도시한다. 소정의 실시예들에서, 센서(들)는, 자이로스코프, 가속도계, 근접 센서, 광 레벨 센서, 터치 센서 및 카메라의 임의의 조합을 포함할 수 있다.
이 예시된 실시예에서, 스마트폰(110)에는 음성 바이오메트릭 기능 및 제어 기능이 제공된다. 따라서, 스마트폰(110)은 등록된 사용자로부터의 구두 명령에 응답하여 다양한 기능을 수행할 수 있다. 바이오메트릭 기능은, 등록된 사용자로부터의 구두 명령과, 상이한 사람이 말하는 동일한 명령을 구분할 수 있다. 따라서, 본 발명의 소정 실시예들은 어떤 종류의 음성 작동성을 갖는 스마트폰이나 또 다른 휴대형 전자 디바이스, 예를 들어, 구두 명령을 실행하도록 의도된 디바이스에서 음성 바이오메트릭 기능이 수행되는 태블릿 또는 랩탑 컴퓨터, 게임 콘솔, 홈 제어 시스템, 홈 엔터테인먼트 시스템, 차량내 엔터테인먼트 시스템, 가정용 기기 등의 동작에 관한 것이다. 소정의 다른 실시예들은, 음성 바이오메트릭 기능이 화자가 등록된 사용자임을 확인할 수 있는 경우 별개의 디바이스에 명령을 전송하는, 스마트폰 또는 다른 디바이스 상에서 음성 바이오메트릭 기능이 수행되는 시스템에 관한 것이다.
일부 실시예들에서, 음성 바이오메트릭 기능이 스마트폰(110) 또는 사용자 가까이에 위치한 다른 디바이스에서 수행되는 동안, 구두 명령은 구두 명령의 의미를 결정하는 원격 스피치 인식 시스템에 트랜시버(122)를 이용하여 전송된다. 예를 들어, 스피치 인식 시스템은 클라우드 컴퓨팅 환경에서 하나 이상의 원격 서버에 위치할 수 있다. 그 다음, 구두 명령의 의미에 기초한 신호는 스마트폰(110) 또는 다른 로컬 디바이스에 반환된다. 다른 실시예들에서, 스피치 인식 시스템은 또한, 디바이스(110) 상에 위치한다.
음성 바이오메트릭 시스템을 속이려는 한 시도는, 소위 재생 또는 스푸핑 공격으로서, 등록된 사용자의 음성 녹음을 재생하는 것이다.
도 3은 재생 공격이 수행되고 있는 상황의 한 예를 보여준다. 따라서, 도 3에서, 스마트폰(110)에는 음성 바이오메트릭 기능이 제공된다. 이 예에서, 스마트폰(110)은, 또 다른 스마트폰(130)을 갖고 있는 공격자의, 적어도 일시적 소유하에 있다. 스마트폰(130)은 스마트폰(110)의 등록된 사용자의 음성을 녹음하는데 이용되었다. 스마트폰(130)은 스마트폰(110)의 마이크로폰 입구(112)에 가깝게 놓여지고 등록된 사용자의 음성 녹음이 재생된다. 음성 바이오메트릭 시스템이 자신이 인식하는 등록된 사용자의 음성이 녹음이라고 결정할 수 없다면, 공격자는 등록된 사용자에 의해서만 액세스될 수 있는 하나 이상의 서비스에 액세스하게 될 것이다.
동시에 또는 별도로, 얼굴 인식 시스템 등의 카메라 기반 바이오메트릭 기능이 스마트폰(110)에 제공될 때, 공격자는, 얼굴 인식 시스템을 무력화하려는 시도에서, 스마트폰(130)의 디스플레이를 이용하여 등록된 사용자의 사진 또는 비디오를 보여줄 수 있다.
따라서 본 명세서에 설명된 실시예들은, 예를 들어 검출된 임의의 음성 사운드를 말하는 사람의 존재를 검출하는 생기 검출을 수행하려고 시도한다.
도 4는, 예를 들어 바이오메트릭 시스템에서 이용하기 위한 생기 검출 방법을 도시한 플로차트이고, 이 도시된 예에서는 음성 바이오메트릭 시스템에 대한 재생 공격을 검출하기 위해 이용되며, 도 5는 음성 바이오메트릭 시스템을 포함하는 스피치 처리 시스템의 한 예에서 기능 블록을 도시하는 블록도이다.
구체적으로, 도 4의 방법의 단계 150에서, 신호는 도 5에 도시된 시스템의 입력(170)에서 수신된다. 따라서, 입력(170)은 도 1에 도시된 마이크로폰(112) 또는 도 2에 도시된 복수의 마이크로폰(112, 112a, 112b) 등에 접속될 수 있다.
수신된 신호는, 수신된 신호가 스피치를 포함하는 때를 검출하는 음성 활동 검출기(Voice Activity Detector)(VAD)(172)에 전달된다.
수신된 신호는 또한, 키워드 검출 블록(174)에 전달된다. 수신된 신호가 스피치를 포함하는 것으로 음성 활동 검출기(172)에 의해 결정된다면, 키워드 검출 블록(174)이 활성화되고, 검출된 스피치에서 미리결정된 키워드의 존재를 검출하도록 동작한다. 예를 들어, 스마트폰의 스피치 처리 시스템은, 디바이스의 동작 수명의 작은 부분 동안에만 스피치 처리가 요구될 것이라는 사실을 반영하여, 디폴트로 저전력 모드에서 동작할 수 있다. 그 다음, 스피치 처리 시스템은 사용자가 "Hello phone" 등의 미리결정된 키워드 또는 문구를 발성함으로써 저전력 모드로부터 벗어날 수 있다.
수신된 신호는 또한, 화자 인식 블록(176)에 전달된다. 미리결정된 키워드가 검출된 스피치에 존재하는 것으로 키워드 검출 블록(174)에 의해 결정되면, 화자 인식 블록(176)은, 미리결정된 키워드를 발성한 사람이 디바이스의 및/또는 디바이스의 특정한 애플리케이션의 등록된 사용자인지를 결정하려고 시도한다. 수신된 신호에 존재하는 스피치의 화자가 등록된 사용자인지를 결정하기 위한 적절한 바이오메트릭 기술이 공지되어 있다.
미리결정된 키워드를 발성한 사람이 디바이스 및/또는 디바이스 상의 특정한 애플리케이션의 등록된 사용자인 것으로 화자 인식 블록(176)에 의해 결정된다면, 수신된 신호는, 디바이스에 있거나 클라우드에 원격으로 위치할 수도 있는 스피치 처리 블록(178)에 전달된다. 그 다음, 스피치 처리 블록(178)은 스피치의 내용을 결정한다. 스피치가 예를 들어 명령을 포함한다면, 스피치 처리 블록(178)은 그 명령이 수행되게 하기 위한 적절한 신호를 생성한다.
도 5에 도시된 시스템은, 도 3에 도시된 바와 같이, 생기 검출을 수행하기 위한, 그에 따라, 스피치를 포함하는 수신된 신호가 재생 공격으로부터 시작되었는지를 검출하기 위한 메커니즘을 포함한다.
따라서, 도 4에 도시된 방법의 단계 152에서, 도 5에 도시된 초음파 생성 및 전송 블록(180)에 의해 초음파 신호가 생성 및 전송된다. 초음파 전송 블록(180)은 항상 동작할 수 있다. 다른 실시예들에서, 초음파 전송 블록(180)은, 그 입력(182) 상에서 인에이블 신호를 수신할 때만 동작한다. 인에이블 신호는, 예를 들어, 음성 활동 검출기(172)가 수신된 신호가 스피치를 포함한다고 결정할 때, 또는 키워드 검출 블록(174)이 미리결정된 키워드의 존재를 검출할 때, 또는 화자 인식 블록(176)이 미리결정된 키워드를 발성한 사람이 등록된 사용자인지를 결정하기 위한 바이오메트릭 기술을 수행하기 시작할 때 생성될 수 있다.
초음파 신호는, 단일 톤 정현파이거나, 다른 구성, 예를 들어 처프 신호(chirp signal)가 이용될 수도 있다. 초음파 신호의 주파수는 전송성 이유로 비교적 20kHz에 가깝도록 선택될 수 있지만, 들을 수 없도록 보장하기에 충분히 높다.
도 4에 도시된 방법의 단계 154에서, 생성된 초음파 신호의 반사가 검출된다.
도 5에 도시된 시스템에서, 신호는 입력(184)에서 수신되고 초음파 검출 블록(186)에 전달된다. 예를 들어, 입력(184)은 도 2에 도시된 복수의 마이크로폰(112, 112a, 112b) 중 하나 이상에 접속됨으로써, 검출된 임의의 신호를 수신할 수 있다.
수신된 신호는, 예를 들어 초음파 전송 블록(180)에 의해 전송된 초음파 신호의 주파수에 가까운 주파수를 갖는 신호를 선택하기 위한 하나 이상의 필터를 포함할 수 있는, 초음파 검출 블록(186)에 전달된다. 반사된 초음파 신호들은 그들의 주파수에서 도플러 편이될 수 있지만, 도플러 편이는 100Hz보다 훨씬 크지 않을 수 가능성이 크므로, 초음파 검출 블록(186)은, 초음파 전송 블록(180)에 의해 전송된 초음파 신호 주파수의 100Hz 내에 있는 주파수를 갖는 신호를 선택하기 위한 필터를 포함할 수 있다.
도 4에 도시된 방법의 단계 156에서, 초음파 검출 블록(186)에 의해 검출된 수신된 초음파 신호는 생성된 초음파 신호의 반사에서 도플러 편이를 검출하는 도플러 검출 블록(188)에 전달된다. 따라서, 수신된 반사된 초음파 신호는 생성된 초음파 신호와 비교되어, 검출된 스피치 신호를 생성하도록 말하고 있는 사람의 얼굴, 특히 입술 등의 움직이는 표면으로부터의 반사에 의해 야기되는 반사 신호에서의 주파수 편이를 식별한다.
도 4에 도시된 방법의 단계 158에서, 검출된 도플러 편이에 기초하여, 이들 도플러 편이가 검출된 스피치를 생성하는 사람의 생기에 대한 좋은 증거를 제공하는지가 결정된다.
도 5에 도시된 예시된 실시예에서, 도플러 검출 블록(188)의 출력은 상관 블록(190)의 하나의 입력에 인가된다. 입력(170) 상의 수신된 오디오 신호는 상관 블록(190)의 또 다른 입력에 인가된다. 대안적인 실시예에서, 음성 활동 검출 블록(172)에 의해 생성된 신호는 상관 블록(190)의 다른 입력에 인가된다. 상관 블록(190)의 출력은 도 5에 도시된 결정 블록(192)에 인가된다.
생성된 초음파 신호의 반사에서 도플러 편이가 검출되는 기간과 수신된 스피치 신호에서 스피치 내용이 식별되는 기간 사이에 상관이 있는 것으로 상관 블록(190)에 의해 밝혀진다면, 이것은, 그 검출된 스피치가, 입술을 움직여 사운드를 생성하는 살아있는 사람에 의해 생성된 것임을 나타낸다. 상관도가 낮다면, 이에 대한 한 가능한 이유는, 검출된 스피치가, 입술을 움직여 사운드를 생성하는 살아 있는 사람에 의해 생성된 것이 아니기 때문일 수 있다. 이에 대한 한 가능한 이유는, 검출된 스피치가 사실상 재생 공격에 의해 생성된 것이라는 것이다.
따라서, 결정 블록(192)은 화자의 생기에 관한 정보, 그에 따라 검출된 스피치가 재생 공격에 의해 생성되었을 가능성에 관한 정보를 포함하는 출력 신호를 생성한다. 이 예시된 실시예에서, 이 출력 신호는, 화자가 디바이스의 등록된 사용자인지를 결정하기 위해 하나 이상의 음성 바이오메트릭 처리 프로세스를 수행하는 화자 인식 블록(176)에 인가된다. 그러면, 화자 인식 블록(176)은, 화자가 실제로 디바이스의 등록된 사용자인지를 결정하기 위해 이용하는 수개의 요소들 중 하나로서 출력 신호를 이용할 수 있다. 예를 들어, 검출된 스피치가 등록된 사용자의 스피치인지를 나타내는 하나 이상의 인자, 및 검출된 스피치가 재생 공격으로부터 발생했는지를 나타내는 하나 이상의 인자가 있을 수 있다.
다른 예에서, 생기 검출은, 다른 목적을 위해, 예를 들어 등록된 사용자의 정지 영상 또는 동영상을 제시함으로써 얼굴 인식 시스템을 무력화하려는 시도를 검출하는데 이용될 수 있다.
아래에서 더 상세하게 논의되는 바와 같이, 초음파 신호를 생성하는 목적은, 말하는 동안 화자의 얼굴, 특히 입술의 움직임을 검출하는 것이다. 이것이 성공적으로 동작하기 위해, 초음파 신호는 디바이스의 이용에 관한 정보에 따라 변화될 수 있는 것이 유리하다.
따라서, 전술된 바와 같이, 도 4에 도시된 프로세스의 단계 152는 초음파 신호를 생성 및 전송하는 단계를 포함한다.
도 6은, 일부 실시예들에서, 이 단계에 대한 더 많은 상세사항을 제공하는 플로차트이다. 구체적으로, 이 방법의 단계 1110에서, 시스템은 디바이스(110)의 위치에 관한 정보를 획득한다.
예를 들어, 디바이스의 위치에 관한 정보를 획득하는 단계는 디바이스의 배향에 관한 정보를 획득하는 단계를 포함할 수 있다. 디바이스의 배향에 관한 정보는, 예를 들어 디바이스(110) 내에 센서(126)로서 제공된 자이로스코프 및/또는 가속도계로부터 획득될 수 있다.
한 대안으로서, 디바이스의 위치에 관한 정보를 획득하는 단계는, 음성 소스로부터 디바이스의 거리에 관한 정보를 획득하는 단계를 포함할 수 있다. 음성 소스로부터의 디바이스의 거리에 관한 정보는, 예를 들어, 마이크로폰(112, 112a, 112b)에 의해 생성된 신호의 레벨을 검출함으로써 획득될 수 있다. 예를 들어, 하나의 마이크로폰으로부터의 더 높은 신호 레벨은, 음성 소스가 하나 이상의 다른 마이크로폰보다 그 마이크로폰에 더 가깝다는 것을 나타낼 수 있다.
또 다른 대안으로서, 디바이스의 위치에 관한 정보를 획득하는 단계는, 추정된 화자에 관한 디바이스의 위치에 관한 정보를 획득하는 단계를 포함할 수 있다. 추정된 화자에 관한 디바이스의 위치에 관한 정보는, 예를 들어, 디바이스(110) 내의 센서(126)로서 제공된 하나 이상의 근접 센서로부터 획득될 수 있다. 추정된 화자에 관한 디바이스의 위치에 관한 정보는 또한, 디바이스(110) 내의 센서(126)로서 제공된 하나 이상의 광 레벨 센서로부터 획득될 수 있다. 추정된 화자에 관한 디바이스의 위치에 관한 정보는 또한, 사용자가 디바이스(110)를 어떻게 쥐고 있는지를 나타내는 디바이스(110) 내의 센서(126)로서 제공된 하나 이상의 터치 센서로부터 획득될 수 있다. 추정된 화자에 관한 디바이스의 위치에 관한 정보는 또한, 디바이스(110)에 관한 사용자의 얼굴의 위치를 추적할 수 있는, 디바이스(110) 내의 센서(126)로서 제공된 카메라로부터 획득될 수 있다.
그 다음, 단계 1112에서, 이 방법은 디바이스의 위치에 관한 정보에 기초하여 초음파 신호의 생성 및 전송을 적합화하는 단계를 포함한다.
초음파 신호의 생성 및 전송을 적합화하는 단계는, 예를 들어 초음파 신호의 전송 전력을 조정하는 단계를 포함할 수 있다. 또 다른 예로서, 디바이스가 복수의 트랜스듀서(114, 116)를 가질 때, 초음파 신호의 생성 및 전송을 적합화하는 단계는, 사용자의 입술의 움직임을 검출할 수 있기 위하여 사용자의 입에 가까운 트랜스듀서로부터 초음파 신호가 생성되어야 한다는 의도로, 초음파 신호가 생성되는 하나 이상의 트랜스듀서를 선택하는 단계를 포함할 수 있다.
예를 들어, 디바이스의 위치에 관한 정보를 획득하는 단계는, 음성 소스로부터 디바이스의 거리에 관한 정보를 획득하는 단계를 포함할 수 있고, 초음파 신호의 생성 및 전송을 적합화하는 단계는, 적어도 소정 한계치 아래의 거리에 대해, 디바이스가 음성 소스로부터 더 멀리 있을 때에는 더 높은 전력이 이용되도록, 초음파 신호의 전송 전력을 더 높게 조정하는 단계를 포함할 수 있다. 이것은, 디바이스가 사용자의 귀에 가까이 있을 때 초음파 에너지를 전송할 위험없이, 명확하게 검출가능한 반사를 생성하는 초음파 신호를 디바이스가 생성하는 것을 허용한다.
또 다른 예로서, 디바이스의 위치에 관한 정보를 획득하는 단계는, (예를 들어, 이들 트랜스듀서들에 가까이 위치한 마이크로폰들에서의 신호 레벨들에 기초하여) 복수의 확성기 트랜스듀서 중 어느 것이 음성 소스에 가장 가까운지에 관한 정보를 획득하는 단계를 포함할 수 있고, 초음파 신호의 생성 및 전송을 적합화하는 단계는, 주로 또는 전적으로 그 트랜스듀서로부터 초음파 신호를 전송하는 단계를 포함할 수 있다. 이것은, 디바이스가, 사운드 소스에 가장 가까운 트랜스듀서로부터 초음파 신호를 생성하는 것을 허용함으로써, 이용가능한 반사 신호를 검출할 가능성을 증가시킨다.
다른 가능성은 화자가 디바이스를 이용할 수 있는 특정한 방식과 관련이 있다.
따라서, 예를 들어, 디바이스(110)가, 적어도, 디바이스의 하단의 제1 트랜스듀서(116) 및 디바이스의 상단의 제2 트랜스듀서(114)를 포함하는 모바일 전화일 때, 디바이스의 위치에 관한 정보에 기초하여 초음파 신호의 생성 및 전송을 적합화하는 단계는, 디바이스의 위치에 관한 정보가 디바이스(110)가 근접 대화 모드(close talk mode)에서 이용되고 있다는 것을 나타내는 경우, 제1 트랜스듀서(116)로부터 비교적 낮은 전력으로 초음파 신호를 전송하는 단계를 포함할 수 있다. 근접 대화란, 전화가 사용자의 얼굴 측면에 인접하여 위치해 있고, 통신이, 예를 들어 "전통적인" 전화 핸드셋 위치에서와 같이, 근거리 이어피스 스피커를 이용하고 있는 경우의 전화 이용으로서 이해될 것이다.
예를 들어, 이 모드에서 초음파 신호는 1cm에서 70-90dB SPL 레벨로 전송될 수 있다.
디바이스의 위치에 관한 정보는, 도 7a에 도시된 바와 같이, 예를 들어 디바이스(110)가 직립 위치에 있다는 것을 가속도계가 나타내고, 디바이스(110)가 사용자의 얼굴(1120)일 수 있는 표면에 가까이 유지되고 있다는 것을 근접 센서가 검출한다면, 디바이스가 근접 대화 모드에서 이용되고 있는 중임을 나타낸다고 간주될 수 있다.
더 일반적으로, 디바이스의 위치에 관한 정보에 기초하여 초음파 신호의 생성 및 전송을 적합화하는 단계는, 디바이스의 위치에 관한 정보가 디바이스가 대체로 수직 배향으로 이용되고 있는 중임을 나타내는 경우 제2 트랜스듀서로부터 초음파 신호를 전송하는 단계를 포함할 수 있다.
또 다른 예로서, 디바이스(110)가, 적어도, 디바이스의 하단의 제1 트랜스듀서(116) 및 디바이스의 상단의 제2 트랜스듀서(114)를 포함하는 모바일 전화일 때, 디바이스의 위치에 관한 정보에 기초하여 초음파 신호의 생성 및 전송을 적합화하는 단계는, 디바이스의 위치에 관한 정보가, 도 7b에 도시된 바와 같이, 사용자가 디바이스(110)를 사용자의 얼굴(1130) 앞에서 잡고 있고, 하위 마이크로폰(112)이 사용자를 향해 가리키고 있는, 즉, 근방 대화 모드(near talk mode)의 "피자 슬라이스" 버전에 있다고 나타낸다면, 디바이스의 하단의 트랜스듀서(116)로부터 비교적 높은 전력으로 초음파 신호를 전송하는 단계를 포함할 수 있다.
근방 대화 모드란, 전화가 사용자의 얼굴 앞에 위치해 있고 근거리 확성기 및 마이크로폰이 이용될 수 있는 경우로서 이해될 것이다. 이 위치는, 예를 들어 Microsoft의 Skype™ 또는 Apple의 FaceTime™ 등의 소프트웨어 제품을 이용한 화상 통화의 목적에 적합할 수 있다. "피자 슬라이스(Pizza slice)" 모드는, 근방 대화 모드의 한 변형이지만, (전화기의 하단에 위치한 마이크로폰이 사용자를 직접 향하도록) 전화기가 비교적 수평 위치로 유지되는 경우로서 이해될 것이다.
예를 들어, 이 모드에서 초음파 신호는 1cm에서 90-110dB SPL 레벨로 전송될 수 있다.
디바이스의 위치에 관한 정보는, 예를 들어, 디바이스가 수평 위치에 있음을 가속도계가 나타내고, 마이크로폰(112)에 의해 검출된 신호 레벨이 마이크로폰(112a, 112b)에 의해 검출된 신호 레벨보다 높다면, 디바이스가 "피자 슬라이스" 모드에서 이용되고 있음을 나타내는 것으로 간주될 수 있다.
더 일반적으로, 디바이스의 위치에 관한 정보에 기초하여 초음파 신호의 생성 및 전송을 적합화하는 단계는, 디바이스의 위치에 관한 정보가 디바이스가 대체로 수평 배향으로 이용되고 있는 중임을 나타내는 경우 제1 트랜스듀서로부터 초음파 신호를 전송하는 단계를 포함할 수 있다.
사용자가 얼굴 앞에서 디바이스를 유지하여, 예를 들어, 말하는 동안 디바이스에서 화면을 볼 수 있는 근방 대화 모드의 변형에서, 디바이스의 위치에 관한 정보에 기초하여 초음파 신호의 생성 및 전송을 적합화하는 단계는, 디바이스의 상단의 트랜스듀서(114)로부터 또는 디바이스의 양단에서 트랜스듀서로부터 비교적 높은 전력으로 초음파 신호를 전송하는 단계를 포함할 수 있다.
또 다른 예로서, 디바이스의 위치에 관한 정보에 기초하여 초음파 신호의 생성 및 전송을 적합화하는 단계는, 디바이스의 위치에 관한 정보가, 예를 들어, 도 7c에 도시된 바와 같이, 디바이스(110)가 사용자(1142)로부터 어떤 거리만큼 떨어진 표면(1140) 상에 놓여 있는 원거리 모드에서 디바이스가 이용되고 있음을 나타내는 경우 초음파 신호의 전송을 방지하는 단계를 포함할 수 있다. 이 예에서, 디바이스의 위치에 관한 정보는, 디바이스가 사운드 소스로부터 임계 거리(예를 들어, 50cm) 이 상에 위치하고 있다는 것을 표시할 수 있다.
이것은, 화자의 입술 움직임의 검출은, 디바이스가 사용자의 얼굴 가까이에 유지되고 있다는 표시일 때에만 이용하기에 충분히 신뢰성있다고 결정될 수 있기 때문이다.
도 5에 도시된 바와 같이, 그리고 전술된 바와 같이, 도플러 검출 블록(188)의 출력은 상관 블록(190)의 한 입력에 인가된다. 입력(170) 상의 수신된 오디오 신호는 상관 블록(190)의 또 다른 입력에 인가된다. 상관 블록(190)은, 생성된 초음파 신호의 반사에서 도플러 편이가 검출된 기간과 스피치가 존재하는 기간 사이에 상관이 있는지를 결정한다.
생성된 초음파 신호의 수신된 반사에서 검출된 임의의 도플러 편이가 화자의 정말로 얼굴 움직임으로부터 발생하고 다른 움직이는 물체로부터의 가짜 반사의 결과가 아님을 확인하는 것이 목적이다.
도 8은 상관 블록(190)에서 수행되는 방법을 도시하는 플로차트이다.
먼저, 단계 1150에서, 검출된 도플러 편이가 일반적인 스피치 분절률에 대응하는지가 결정된다. 분절률은, 스피치 동안 음절이 생성되는 속도이며, 대부분의 스피치의 경우, 전형적인 분절률은 4-10Hz 범위에 있다고 알려졌다. 화자의 얼굴 움직임(예를 들어, 화자의 입술, 뺨 및 콧구멍의 움직임)은 일반적으로 동일한 속도로 발생한다. 따라서, 단계 1150에서, 검출된 도플러 편이가 4-10Hz 범위의 주파수에서의 얼굴 움직임에 대응하는지가 결정된다.
단계 1152에서, 검출된 도플러 편이가 현재 스피치의 분절률에 대응하는지가 결정된다.
따라서, 수신된 오디오 신호에 포함된 스피치의 분절률은 상관 블록(190)에서 추출된다. 그 다음, 검출된 도플러 편이가 추출된 분절률에 대응하는 주파수에서의 얼굴 움직임에 대응하는지가 결정된다.
검출된 도플러 편이가 추출된 분절률에 대응하는 주파수에서의 얼굴 움직임에 대응하는 것으로 결정된다면, 이것은 생기의 좋은 증거로 간주될 수 있다.
추가의 가능한 단계에서, 도 8에 도시된 방법의 단계 1154에서, 생성된 초음파 신호의 반사에서 검출된 도플러 편이와 수신된 스피치 신호의 스피치 내용 사이에 상관이 있는지가 결정된다.
본 명세서에 설명된 바와 같이 초음파를 이용할 때의 한 가지 문제점은 주변 초음파 노이즈의 간섭 소스가 있을 수 있다는 것이 인식된다.
따라서, 도 9는 도플러 검출 블록(188) 및 상관 블록(190)에서 수행되는 한 방법을 도시하는 플로차트이다.
구체적으로, 단계 1170에서, 주변 초음파 노이즈의 레벨이 모니터링된다. 그 후, 단계 1172에서, 음성 바이오메트릭 시스템의 동작은, 반사된 초음파 및 모니터링된 주변 초음파 노이즈의 레벨에 기초하여 조정된다.
도 10은 도플러 검출 블록(188) 및 상관 블록(190)의 동작을 개략적으로 나타내는 블록도이다. 도 11은 동작의 상이한 단계들에서 획득된 신호를 도시한다.
구체적으로, 하나 또는 마이크로폰(112)으로부터의 신호는, 검출된 신호의 오디오 주파수 성분(예를 들어, 20kHz 미만)을 분리하기 위해 저역 통과 필터(1180)에 전달된다. 한 예에서, 결과적인 오디오 신호가 도 11a에 도시되어 있다.
오디오 신호의 신호 레벨은 신호의 절대 값을 찾는 블록 1182에서 발견된다. 동일한 예에서, 결과적인 엔벨로프 신호가 도 11b에 도시되어 있다.
하나 또는 마이크로폰(112)으로부터의 신호는 또한, 검출된 신호의 초음파 성분(예를 들어, 20kHz 초과)을 분리하기 위해 고역 통과 필터(1184)에 전달된다. 이것은, 생성된 초음파 신호의 원하는 반사를 포함할 수 있지만, 간섭하는 주변 초음파 노이즈도 포함할 수 있다.
초음파 신호의 레벨은 레벨 검출기(1186)에 의해 결정된다.
그 다음, 초음파 신호는 복조 블록(1188)에 전달되고, 여기서 오디오 대역으로 하향변환되고, 임의의 도플러 편이된 반사가 발견된다. 이것은, 수신된 초음파 신호를, 생성 및 전송된 초음파 신호와 혼합함으로써 달성된다. 수신된 초음파 신호는, 전송된 신호로부터 기원하지 않은 다른 초음파 신호를 제거하기 위하여, 요구된다면 하향변환 이전에 대역 통과 필터를 통과할 수 있다. 또한, 혼합 단계의 출력은 저역-통과 필터링될 수 있다.
한 예에서, 결과적인 신호가 도 11c에 도시되어 있다.
도플러 편이된 반사 신호의 신호 레벨은, 신호의 절대 값을 찾는 블록 1190에서 발견된다.
따라서, 생성된 초음파 신호의 반사에서 검출된 도플러 편이와, 수신된 스피치 신호의 스피치 내용 사이에 상관이 있다는 것을 도 11로부터 알 수 있다.
견고한 결과를 획득하기 위해, 도 10의 블록 1192에 도시된 바와 같이, 상관 연산이 수행된다.
그러나, 상관을 수행하기 전에, 오디오 신호가 사실상 화자의 얼굴 움직임의 결과인 반면, 반사된 초음파 신호에서의 도플러 편이는 얼굴 움직임의 속도로부터의 결과일 것이라는 점에 유의한다. 따라서, 일부 실시예들에서, 오디오 신호가 미분되거나(예를 들어, 10-200Hz의 통과-대역을 갖는 대역 통과 필터, 엔벨로프 블록, 또는 미분기의 형태로 된 블록 1194를 통과함으로써), 초음파 신호가 적분된다(예를 들어, 누설 적분기(leaky integrator) 또는 예를 들어 10-200Hz의 통과-대역을 갖는 대역 통과 필터의 형태로 된 블록 1196을 통과함으로써).
그 다음, 상관기(1192)는 신호에 관해 프레임별 교차 상관(frame-by-frame cross correlation)을 수행한다. 상관 결과 Rxy가 임계값을 초과한다면, 검출된 도플러 편이와 수신된 스피치 신호의 스피치 내용 사이에 충분한 상관이 있다고 결정되어, 살아있는 화자의 증거가 있고, 그에 따라 스피치가 재생 공격으로부터 발생한 것이 아니라고 결론을 내린다. 화자의 생기에 대한 좋은 증거가 없다면, 이것은 수신된 스피치 신호가 재생 공격의 생성물일 수 있다는 표시일 수 있다.
시스템의 동작은, 레벨 검출기(1186)에 의해 검출되는, 반사된 초음파의 레벨 및 모니터링된 주변 초음파 노이즈에 기초하여 조정될 수 있다.
예를 들어, 수신된 스피치 신호가 재생 공격의 결과일 수 있는지에 대한 결정에 관한 의존도는, 모니터링된 주변 초음파 노이즈의 레벨에 기초하여 조정될 수 있다. 수신된 스피치 신호가 재생 공격의 결과일 수 있는지에 관한 결정은, 전형적으로 하나보다 많은 인자에 기초하여 이루어질 것이다. 큰 주변 초음파 신호의 존재는 이 시스템의 신뢰성에 영향을 미치므로, 모니터링된 주변 초음파 노이즈의 레벨이 증가함에 따라, 결정에 대한 의존도는 감소될 수 있다는 것이 인식된다. 더 구체적으로, 모니터링된 주변 초음파 노이즈의 레벨이 제1 임계 레벨을 초과한다면, 상관의 결과는 완전히 무시되거나, 상관이 수행되지 않을 수 있다.
더 낮은 레벨의 간섭을 위해, 시스템의 동작의 조정은, 살아있는 화자의 증거가 있다고 결론내리기 위해 검출된 도플러 편이와 수신된 스피치 신호의 스피치 내용 사이에 충분한 상관이 있는지를 결정하는데 이용되는 임계 상관 값을 적합화하는 것을 포함할 수 있다. 구체적으로, 낮은 레벨의 초음파 간섭에 대해, 높은 임계 상관 값이 이용될 수 있다. (위에서 언급된 제1 임계값보다 여전히 작은) 다소 더 높은 레벨의 초음파 간섭의 경우, 간섭의 존재가 상관기(1192)로부터 획득된 상관 값을 자동으로 감소시킬 것이라는 사실을 고려하기 위해 더 낮은 임계 상관 값이 이용될 수 있다.
본 명세서에 설명된 이하의 방법들은 광범위한 디바이스 및 시스템에서 구현될 수 있다. 그러나, 한 실시예의 설명을 용이성을 위해, 구현이 스마트폰에서 발생하는 한 예시적인 예가 설명될 것이다.
도 12는 주변 사운드를 검출하기 위한 마이크로폰(212)을 갖는 스마트폰(210)을 도시한다. 보통의 이용에서, 마이크로폰은, 물론, 얼굴 가까이에 스마트폰(210)을 잡고 있는 사용자의 스피치를 검출하는데 이용된다.
도 13은 스마트폰(210)의 형태를 나타내는 개략도이다.
구체적으로, 도 13은 스마트폰(210)의 다양한 상호접속된 컴포넌트들을 도시한다. 스마트폰(210)은 실제로 많은 다른 컴포넌트를 포함할 것이지만, 이하의 설명은 본 발명의 이해를 위해 충분하다는 것을 이해할 것이다.
따라서, 도 13은 앞서 언급된 마이크로폰(212)을 도시한다. 소정 실시예들에서, 스마트폰(210)에는 복수의 마이크로폰(212, 212a, 212b) 등이 제공된다.
도 13은 또한, 실제로 단일 컴포넌트 또는 복수의 컴포넌트로서 제공될 수 있는 메모리(214)를 도시한다. 메모리(214)는 데이터 및 프로그램 명령어를 저장하기 위해 제공된다.
도 13은 또한, 실제로 단일 컴포넌트 또는 복수의 컴포넌트로서 다시 제공될 수 있는 프로세서(216)를 도시한다. 예를 들어, 프로세서(216)의 한 컴포넌트는 스마트폰(210)의 애플리케이션 프로세서일 수 있다.
도 13은 또한, 스마트폰(210)이 외부 네트워크와 통신하는 것을 허용하기 위해 제공되는 트랜시버(218)를 도시한다. 예를 들어, 트랜시버(218)는, WiFi 근거리 네트워크를 통해 또는 셀룰러 네트워크를 통해 인터넷 접속을 확립하기 위한 회로를 포함할 수 있다.
도 13은 또한, 요구된다면 마이크로폰(212)에 의해 검출된 오디오 신호에 관한 동작을 수행하기 위한 오디오 처리 회로(220)를 도시한다. 예를 들어, 오디오 처리 회로(220)는 오디오 신호를 필터링하거나 다른 신호 처리 동작을 수행할 수 있다.
이 실시예에서, 스마트폰(210)에는 음성 바이오메트릭 기능 및 제어 기능이 제공된다. 따라서, 스마트폰(210)은 등록된 사용자로부터의 구두 명령에 응답하여 다양한 기능을 수행할 수 있다. 바이오메트릭 기능은, 등록된 사용자로부터의 구두 명령과, 상이한 사람이 말하는 동일한 명령을 구분할 수 있다. 따라서, 본 발명의 소정 실시예들은 어떤 종류의 음성 작동성을 갖는 스마트폰이나 또 다른 휴대형 전자 디바이스, 예를 들어, 구두 명령을 실행하도록 의도된 디바이스에서 음성 바이오메트릭 기능이 수행되는 태블릿 또는 랩탑 컴퓨터, 게임 콘솔, 홈 제어 시스템, 홈 엔터테인먼트 시스템, 차량내 엔터테인먼트 시스템, 가정용 기기 등의 동작에 관한 것이다. 소정의 다른 실시예들은, 음성 바이오메트릭 기능이 화자가 등록된 사용자임을 확인할 수 있는 경우 별개의 디바이스에 명령을 전송하는, 스마트폰 또는 다른 디바이스 상에서 음성 바이오메트릭 기능이 수행되는 시스템에 관한 것이다.
일부 실시예들에서, 음성 바이오메트릭 기능이 스마트폰(210) 또는 사용자 가까이에 위치한 다른 디바이스에서 수행되는 동안, 구두 명령은 구두 명령의 의미를 결정하는 원격 스피치 인식 시스템에 트랜시버(218)를 이용하여 전송된다. 예를 들어, 스피치 인식 시스템은 클라우드 컴퓨팅 환경에서 하나 이상의 원격 서버에 위치할 수 있다. 그 다음, 구두 명령의 의미에 기초한 신호는 스마트폰(210) 또는 다른 로컬 디바이스에 반환된다.
도 14는 디바이스(210) 내의 스피치 처리 시스템의 기본 형태를 나타내는 블록도이다. 따라서, 마이크로폰(212)에서 수신된 신호는 스피치 처리 블록(230)에 전달된다. 예를 들어, 스피치 처리 블록(230)은, 음성 활동 검출기, 화자 식별 또는 화자 검증 프로세스를 수행하기 위한 화자 인식 블록, 및/또는 신호의 스피치 내용을 식별하기 위한 스피치 인식 블록을 포함할 수 있다. 스피치 처리 블록(230)은 또한, 전치증폭기, 아날로그-디지털 변환 회로 등의, 신호 조절 회로를 포함할 수 있다.
이러한 시스템에서, 시스템에는 비선형성이 있을 수 있다. 예를 들어, 비선형성은 마이크로폰(212) 내에 있거나, 스피치 처리 블록(230) 내의 신호 조절 회로 내에 있을 수 있다.
회로에서 이런 비선형성의 효과는 초음파 톤이 오디오 대역으로 믹스다운(mix down)될 수 있다는 것이다.
도 15는 이를 개략적으로 도시한다. 구체적으로, 도 15는, 회로 비선형성의 결과로서 믹스다운되어 오디오 주파수 범위(즉, 약 20Hz 내지 20kHz의 주파수들) 내의 주파수 F3에서 신호를 형성하는, 초음파 주파수 범위(즉, 주파수> 20kHz) 내의 2개의 주파수 F1 및 F2에서 간섭 신호가 있는 상황을 도시한다.
도 16은 오디오 신호를 분석하는 방법을 도시하는 플로차트이다.
단계 252에서, 이 방법은 오디오 및 비오디오 주파수를 포함하는 입력 사운드 신호를 수신하는 단계를 포함한다.
단계 254에서, 이 방법은, 입력 사운드 신호를, 오디오 대역 성분 및 비오디오 대역 성분으로 분리하는 단계를 포함한다. 비오디오 성분은 초음파 성분일 수 있다.
단계 256에서, 이 방법은, 비오디오 대역으로부터의 오디오 대역 내의 가능한 간섭을 식별하는 단계를 포함한다.
비오디오 대역 성분으로부터의 오디오 대역 내의 가능한 간섭을 식별하는 단계는, 비오디오 대역 성분의 전력 레벨이 임계값을 초과하는지를 결정하고, 만일 그렇다면, 비오디오 대역 성분으로부터의 오디오 대역 내의 가능한 간섭을 식별하는 단계를 포함할 수 있다.
대안으로서, 비오디오 대역 성분으로부터의 오디오 대역 내의 가능한 간섭을 식별하는 단계는, 오디오 대역과 비오디오 대역 성분들을 비교하는 단계를 포함할 수 있다.
입력 사운드 신호를, 오디오 성분과, 초음파 성분 등의 비오디오 성분으로 분리하는 것은, 오디오 대역에 간섭을 초래할 수 있는 잠재적으로 문제가 있는 비오디오 대역 성분의 존재를 식별하는 것을 가능케한다. 이러한 문제가 있는 신호는, 초음파 센서 디바이스 또는 모뎀으로부터의 초음파 신호 등의, 비교적 높은 레벨의 배경 사운드 신호의 결과로 우발적으로 존재할 수 있다. 대안으로서, 문제가 있는 신호는, 예를 들어 회로 비선형성의 결과로서 믹스다운되어 스피치로서 잘못 해석될 수 있는 오디오 대역 신호를 형성하는 초음파 신호를 생성함으로써, 또는 처리의 다른 양태들을 간섭할 수 있는 초음파 신호를 생성함으로써, 스피치 처리 시스템의 동작을 간섭하거나 스푸핑하려고 시도하는 악의적인 행위자에 의해 생성될 수 있다.
단계 258에서, 이 방법은 상기 가능한 간섭의 식별에 기초하여 다운스트림 스피치 처리 모듈의 동작을 조정하는 단계를 포함한다.
스피치 처리 모듈의 동작의 조정은, 스피치 처리 모듈에 의해 수행되는 스피치 처리에 대한 수정의 형태를 취하거나, 스피치 처리 모듈에 인가되는 신호에 대한 수정의 형태를 취할 수 있다.
예를 들어, 스피치 처리 모듈에 의해 수행되는 스피치 처리에 대한 수정은, 가능한 간섭이 식별되는 기간 동안 스피치 신호에 관한 의존도를 덜 두거나(또는 전혀 두지 않건), 가능한 간섭이 있다는 것을 사용자에게 경고하는 것을 포함할 수 있다.
예를 들어, 스피치 처리 모듈에 인가되는 신호에 대한 수정은, 간섭의 영향을 제거하려고 시도하는 형태를 취할 수 있다.
도 17은 디바이스(210) 내의 스피치 처리 시스템의 기본 형태를 나타내는 블록도이다. 도 14에서와 같이, 마이크로폰(212)에서 수신된 신호는, 스피치 처리 블록(230)에 전달된다. 다시, 도 14에서와 같이, 예를 들어, 스피치 처리 블록(230)은, 음성 활동 검출기, 화자 식별 또는 화자 검증 프로세스를 수행하기 위한 화자 인식 블록, 및/또는 신호의 스피치 내용을 식별하기 위한 스피치 인식 블록을 포함할 수 있다. 스피치 처리 블록(230)은 또한, 전치증폭기, 아날로그-디지털 변환 회로 등의, 신호 조절 회로를 포함할 수 있다.
도 14와 관련하여 언급된 바와 같이, 시스템에는 비선형성이 있을 수 있다. 예를 들어, 비선형성은 마이크로폰(212) 내에 있거나, 스피치 처리 블록(230) 내의 신호 조절 회로 내에 있을 수 있다.
도 17의 시스템에서, 수신된 신호는 또한, 입력 사운드 신호를 오디오 대역 성분 및 초음파 성분일 수 있는 비오디오 대역 성분으로 분리하고, 비오디오 대역 성분으로부터의 오디오 대역 내의 가능한 간섭을 식별하는 초음파 모니터링 블록(262)에 전달된다.
가능한 간섭 소스가 식별된다면, 스피치 처리 모듈에 의해 수행되는 스피치 처리는 적절하게 수정될 수 있다.
도 18은 디바이스(210) 내의 스피치 처리 시스템의 기본 형태를 나타내는 블록도이다. 도 18의 시스템에서, 마이크로폰(212)에서 수신된 신호는 또한, 입력 사운드 신호를 오디오 대역 성분 및 초음파 성분일 수 있는 비오디오 대역 성분으로 분리하고, 예를 들어 마이크로폰(212)의 비선형성으로부터 발생하는 비오디오 대역 성분으로부터의 오디오 대역 내의 가능한 간섭을 식별하는 초음파 모니터링 블록(266)에 전달된다.
가능한 간섭 소스가 식별된다면, 수신된 신호는 적절하게 수정될 수 있고, 수정된 신호는 스피치 처리 모듈(230)에 인가될 수 있다.
도 14에서와 같이, 예를 들어, 스피치 처리 블록(230)은, 음성 활동 검출기, 화자 식별 또는 화자 검증 프로세스를 수행하기 위한 화자 인식 블록, 및/또는 신호의 스피치 내용을 식별하기 위한 스피치 인식 블록을 포함할 수 있다. 스피치 처리 블록(230)은 또한, 전치증폭기, 아날로그-디지털 변환 회로 등의, 신호 조절 회로를 포함할 수 있다.
도 19는 일부 실시예들에서 초음파 모니터링 블록(262 또는 266)의 형태를 나타내는 블록도이다.
이 실시예에서, 마이크로폰(212)으로부터 수신된 신호는 오디오 대역 성분과 비오디오 대역 성분으로 분리된다. 수신된 신호는, 입력 사운드 신호를 필터링하여 입력 사운드 신호의 오디오 대역 성분을 획득하는, 저역-통과 필터(LPF)(282), 예를 들어 ~ 20kHz 이하의 차단 주파수를 갖는 저역-통과 필터에 전달된다. 수신된 신호는 또한, 고역-통과 필터가 ~ 20kHz 이상의 차단 주파수를 가질 때 초음파 신호가 되는 입력 사운드 신호의 비오디오 대역 성분을 획득하기 위해, 고역-통과 필터(HPF)(284), 예를 들어 ~ 20kHz 이상의 차단 주파수를 갖는 고역-통과 필터에 전달된다. 다른 실시예들에서, HPF(284)는, 예를 들어 ~ 20kHz 내지 ~ 90kHz의 통과 대역을 갖는 대역-통과 필터로 대체될 수 있다. 다시, 입력 사운드 신호의 비오디오 대역 성분은, 대역-통과 필터의 통과 대역의 낮은 주파수 끝이 ~ 20kHz 이상일 때 초음파 신호일 것이다.
입력 사운드 신호의 비오디오 대역 성분은, 비오디오 대역 성분의 전력 레벨이 임계값을 초과하는지를 결정하는 전력 레벨 검출 블록(2150)에 전달된다. 예를 들어, 전력 레벨 검출 블록(2150)은, 피크 비오디오 대역(예를 들어, 초음파) 전력 레벨이 임계값을 초과하는지를 결정할 수 있다. 예를 들어, 이것은 피크 초음파 전력 레벨이 -30dBFS(풀 스케일 상대적 데시벨; decibels relative to full scale)를 초과하는지를 결정할 수 있다. 이러한 레벨의 초음파는 악의적인 당사자에 의한 공격으로부터 발생할 수 있다. 어쨌든, 초음파 전력 레벨이 임계값을 초과한다면, 이것이 비선형성으로 인해 오디오 대역에서 간섭을 초래할 수 있다는 것이 식별될 수 있다.
임계값은, 회로 내의 비선형성의 영향에 대한 지식에 기초하여 설정될 수 있다. 따라서, 비선형성의 영향이 값 A(nl), 예를 들어 40dB 믹스다운인 것이라고 알려진 경우, 시스템 동작에 영향을 줄 수 있는 오디오 기저 대역의 전력 레벨에 대한 임계값 A(bb), 예를 들어 30dB SPL을 설정할 수 있다.
그 다음, A(us) = A(bb) + A(nl)인, A(us) 이상의 초음파 신호는, 비선형성으로 인해 시스템 동작이 영향을 받을 수 있는 임계값 위의 기저 대역 신호가 생성될 수 있기 때문에, 오디오 대역에서 문제를 야기할 수 있다. 상기 주어진 예에서, A(nl) = 40dB 및 A(bb) = 30dB SPL인 경우, 이것은 초음파 전력 레벨에 대해 70dB의 임계값을 제공한다.
초음파 전력 레벨이 임계값을 초과하는 것으로 결정된다면, 전력 레벨 검출 블록(2150)의 출력은, 도 16의 방법의 단계 258에서 다운스트림 스피치 처리 모듈에 전송되어 그 동작을 제어하기 위한 플래그일 수 있다.
도 20은 일부 실시예들에서 초음파 모니터링 블록(262 또는 266)의 형태를 나타내는 블록도이다.
이 실시예에서, 마이크로폰(212)으로부터 수신된 신호는 오디오 대역 성분과 비오디오 대역 성분으로 분리된다. 수신된 신호는, 입력 사운드 신호를 필터링하여 입력 사운드 신호의 오디오 대역 성분을 획득하는, 저역-통과 필터(LPF)(282), 예를 들어 ~ 20kHz 이하의 차단 주파수를 갖는 저역-통과 필터에 전달된다. 수신된 신호는 또한, 고역-통과 필터가 ~ 20kHz 이상의 차단 주파수를 가질 때 초음파 신호가 되는 입력 사운드 신호의 비오디오 대역 성분을 획득하기 위해, 고역-통과 필터(HPF)(284), 예를 들어 ~ 20kHz 이상의 차단 주파수를 갖는 고역-통과 필터에 전달된다. 다른 실시예들에서, HPF(284)는, 예를 들어 ~ 20kHz 내지 ~ 90kHz의 통과 대역을 갖는 대역-통과 필터로 대체될 수 있다. 다시, 입력 사운드 신호의 비오디오 대역 성분은, 대역-통과 필터의 통과 대역의 낮은 주파수 끝이 ~ 20kHz 이상일 때 초음파 신호일 것이다.
입력 사운드 신호의 비오디오 대역 성분은 전력 레벨 비교 블록(2160)에 전달된다. 이것은, 오디오 대역과 비오디오 대역 성분들을 비교한다.
예를 들어, 이 경우에, 비오디오 대역 성분으로부터의 오디오 대역 내의 가능한 간섭을 식별하는 단계는: 오디오 대역 성분 Pa에서 신호 전력을 측정하는 단계; 비오디오 대역 성분 Pb에서 신호 전력을 측정하는 단계를 포함할 수 있다. 그 다음, 만일 (Pa/Pb)가 임계 한계보다 작다면, 이것은 비선형성으로 인해 오디오 대역에서의 간섭을 초래할 수 있다는 것이 식별될 수 있다.
그 경우, 전력 레벨 비교 블록(2160)의 출력은, 도 16의 방법의 단계 258에서 다운스트림 스피치 처리 모듈에 전송되어 그 동작을 제어하기 위한 플래그일 수 있다. 더 구체적으로, 이 플래그는, 입력 사운드 신호의 품질이 스피치 처리에 대해 신뢰할 수 없음을 스피치 처리 모듈에게 표시할 수 있다. 그러면, 다운스트림 스피치 처리 모듈의 동작은, 플래그된 신뢰할 수 없는 품질에 기초하여 제어될 수 있다.
도 21은 일부 실시예들에서 초음파 모니터링 블록(262 또는 266)의 형태를 나타내는 블록도이다.
마이크로폰(212)으로부터 수신된 신호는 오디오 대역 성분과 비오디오 대역 성분으로 분리된다. 수신된 신호는, 입력 사운드 신호를 필터링하여 입력 사운드 신호의 오디오 대역 성분을 획득하는, 저역-통과 필터(LPF)(282), 예를 들어 ~ 20kHz 이하의 차단 주파수를 갖는 저역-통과 필터에 전달된다. 수신된 신호는 또한, 고역-통과 필터가 ~ 20kHz 이상의 차단 주파수를 가질 때 초음파 신호가 되는 입력 사운드 신호의 비오디오 대역 성분을 획득하기 위해, 고역-통과 필터(HPF)(284), 예를 들어 ~ 20kHz 이상의 차단 주파수를 갖는 고역-통과 필터에 전달된다. 다른 실시예들에서, HPF(284)는, 예를 들어 ~ 20kHz 내지 ~ 90kHz의 통과 대역을 갖는 대역-통과 필터로 대체될 수 있다. 다시, 입력 사운드 신호의 비오디오 대역 성분은, 대역-통과 필터의 통과 대역의 낮은 주파수 끝이 ~ 20kHz 이상일 때 초음파 신호일 것이다.
입력 사운드 신호의 비오디오 대역 성분은, 신호에 미치는 비선형성의 영향을 시뮬레이션하는 블록(286)에 전달된 다음, 저역-통과 필터(288)에 전달될 수 있다.
저역-통과 필터(282)에 의해 생성된 오디오 대역 성분, 및 블록(286) 및 저역-통과 필터(288)에 의해 생성된 시뮬레이션된 비선형 신호는, 그 다음, 비교 블록(290)에 전달된다.
한 실시예에서, 비교 블록(290)은, 오디오 대역 성분에서의 신호 전력을 측정하고, 비오디오 대역 성분에서의 신호 전력을 측정하고, 비오디오 대역 성분에서의 신호 전력에 대한 오디오 대역 성분에서의 신호 전력의 비율을 계산한다. 이 비율이 임계 한계 이하이면, 이것은, 입력 사운드 신호가 스피치 처리에 신뢰성있게 이용되기에는 너무 높은 레벨의 초음파를 포함할 수 있다는 것을 나타내는 것으로 여겨진다. 그 경우, 비교 블록(290)의 출력은, 도 16의 방법의 단계 258에서 다운스트림 스피치 처리 모듈에 전송되어 그 동작을 제어하기 위한 플래그일 수 있다.
또 다른 실시예에서, 비교 블록(290)은, 비오디오 대역 성분의 신호의 엔벨로프를 검출하고, 신호의 엔벨로프와 오디오 대역 성분 사이의 상관의 레벨을 검출한다. 상관 레벨을 검출하는 단계는, 비오디오 대역 성분의 식별된 신호 엔벨로프와 오디오 대역 성분의 스피치 성분 사이의 시간 영역 상관을 측정하는 단계를 포함할 수 있다. 이 상황에서, 오디오 대역 성분의 일부 또는 전부는, 마이크로폰(212) 내의 비선형성에 의해 오디오 대역으로 하향변환된, 주변 사운드 내의 초음파 신호로부터 발생한 것일 수 있다. 이것은, 필터(284)에 의해 선택된 비오디오 대역 성분과의 상관으로 이어질 것이다. 따라서, 임계값을 초과하는 이러한 상관의 존재는, 오디오 대역 내에 비오디오 대역 간섭이 있을 수 있다는 표시로서 여겨진다.
그 경우, 비교 블록(290)의 출력은, 도 16의 방법의 단계 258에서 다운스트림 스피치 처리 모듈에 전송되어 그 동작을 제어하기 위한 플래그일 수 있다.
또 다른 실시예에서, 블록(286)은, 시뮬레이션된 비선형 신호를 제공하기 위해, 신호에 관한 비선형성의 효과를 시뮬레이션한다. 예를 들어, 블록(286)은, 입력 사운드 신호의 비선형 하향변환에 의해 간섭을 야기할 수 있는 시스템에서의 비선형성을 모델링하려고 시도할 수 있다. 블록(286)에 의해 시뮬레이션된 비선형성은 2차 및/또는 3차 비선형성일 수 있다.
그 실시예에서, 비교 블록(290)은 시뮬레이션된 비선형 신호와 오디오 대역 성분 사이의 상관의 레벨을 검출한다. 상관의 레벨이 임계값을 초과한다면, 비오디오 대역으로부터의 신호에 의해 야기되는 간섭이 오디오 대역 내에 존재할 수 있다고 결정된다.
다시, 그 경우에, 비교 블록(290)의 출력은, 도 16의 방법의 단계 258에서 다운스트림 스피치 처리 모듈에 전송되어 그 동작을 제어하기 위한 플래그일 수 있다.
도 22는 어떤 다른 실시예에서 초음파 모니터링 블록(266)의 형태를 나타내는 블록도이다.
마이크로폰(212)으로부터 수신된 신호는 오디오 대역 성분과 비오디오 대역 성분으로 분리된다. 수신된 신호는, 입력 사운드 신호를 필터링하여 입력 사운드 신호의 오디오 대역 성분을 획득하는, 저역-통과 필터(LPF)(282), 예를 들어 ~ 20kHz 이하의 차단 주파수를 갖는 저역-통과 필터에 전달된다. 수신된 신호는 또한, 고역-통과 필터가 ~ 20kHz 이상의 차단 주파수를 가질 때 초음파 신호가 되는 입력 사운드 신호의 비오디오 대역 성분을 획득하기 위해, 고역-통과 필터(HPF)(284), 예를 들어 ~ 20kHz 이상의 차단 주파수를 갖는 고역-통과 필터에 전달된다. 다른 실시예들에서, HPF(284)는, 예를 들어 ~ 20kHz 내지 ~ 90kHz의 통과 대역을 갖는 대역-통과 필터로 대체될 수 있다. 다시, 입력 사운드 신호의 비오디오 대역 성분은, 대역-통과 필터의 통과 대역의 낮은 주파수 끝이 ~ 20kHz 이상일 때 초음파 신호일 것이다.
입력 사운드 신호의 비오디오 대역 성분은, 신호에 미치는 비선형성의 영향을 시뮬레이션하는 블록(286)에 전달된 다음, 저역-통과 필터(288)에 전달될 수 있다.
도 22에 도시된 실시예들의 경우에, 다운스트림 스피치 처리 모듈의 동작의 조정은, 도 16의 방법의 단계 258에서, 보상된 사운드 신호를 다운스트림 스피치 처리 모듈에 제공하는 단계를 포함한다.
보상된 사운드 신호를 제공하는 단계는, 오디오 대역 성분으로부터 시뮬레이션된 비선형 신호를 감산하여 보상된 출력 신호를 제공하는 단계를 포함하고, 보상된 출력 신호는, 그 다음, 다운스트림 스피치 처리 모듈에 제공된다.
도 22의 실시예에서, 블록(286) 및 저역-통과 필터(288)에 의해 생성된 시뮬레이션된 비선형 신호는 추가 필터(2100)에 전달된다.
저역-통과 필터(282)에 의해 생성된 오디오 대역 성분은 감산기(2102)에 전달되고, 추가 필터(2100)의 출력은, 초음파 신호의 하향변환에 의해 야기된 임의의 성분을 오디오 대역 신호로부터 제거하기 위하여, 오디오 대역 성분으로부터 감산된다. 추가 필터(2100)는 적응형 필터일 수 있고, 가장 간단한 형태에서는 적응 이득일 수 있다. 추가 필터(2100)는, 보상된 출력 신호 내의 필터링된 시뮬레이션된 비선형성 신호의 성분이 최소화되도록 적합화된다.
결과적인 보상된 오디오 대역 신호는 다운스트림 스피치 처리 모듈에 전달된다.
도 23은 어떤 다른 실시예에서 초음파 모니터링 블록(266)의 형태를 나타내는 블록도이다.
앞서 도시된 실시예들에서, 마이크로폰(212)으로부터의 신호는 아날로그 신호일 수 있고, 상응하는 필터에 전달되기 전에 디지털 형태로의 변환을 위해 아날로그-디지털 변환기에 전달될 수 있다. 그러나, 설명의 용이성을 위해, 아날로그-디지털 변환이 초음파 신호가 오디오 대역 내로 믹스다운되게 하는 비선형성의 소스가 아니라고 가정되는 경우, 아날로그-디지털 변환기는 도면에 도시되지 않았다.
그러나, 도 23은 아날로그-디지털 변환이 이상적이지 않은 경우를 나타내고, 따라서, 도 23은 마이크로폰(212)으로부터 수신된 신호가 아날로그-디지털 변환기(ADC)(2120)에 전달되는 것을 도시한다.
다시, 결과적인 신호는 오디오 대역 성분과 비오디오 대역 성분으로 분리된다. 수신된 신호는, 입력 사운드 신호를 필터링하여 입력 사운드 신호의 오디오 대역 성분을 획득하는, 저역-통과 필터(LPF)(282), 예를 들어 ~ 20kHz 이하의 차단 주파수를 갖는 저역-통과 필터에 전달된다.
일반적으로 ADC의 대역폭은 수신된 신호의 초음파 성분을 처리할 수 있을 정도로 커야 한다. 그러나, 임의의 실제 ADC에서는, ADC의 양자화 노이즈가 상승하기 시작하는 주파수가 존재할 것이다. 이것은, 비선형성 내에 허용될 수 있는 주파수들에 상한을 설정한다. 따라서, 도 23은 ADC(2120)의 출력이, 고역-통과 필터가 아니라, 대역-통과 필터(BPF)(2122)에 전달되는 것을 도시한다. 통과 대역의 하단은 예를 들어 ~ 20kHz일 수 있고, 통과 대역의 상단은 양자화 노이즈에 의해 손상된 주파수들, 예를 들어 ~ 90kHz를 배제하는 주파수에 있다.
다른 실시예들에서와 같이, 입력 사운드 신호의 비오디오 대역 성분은, 신호에 미치는 비선형성의 영향을 시뮬레이션하는 블록(286)에 전달된 다음, 저역-통과 필터(288)에 전달될 수 있다.
도 23에 도시된 실시예들의 경우에, 다운스트림 스피치 처리 모듈의 동작의 조정은, 도 16의 방법의 단계 258에서, 보상된 사운드 신호를 다운스트림 스피치 처리 모듈에 제공하는 단계를 포함한다.
이 예시된 예에서, 보상된 사운드 신호를 제공하는 단계는, 오디오 대역 성분으로부터 시뮬레이션된 비선형 신호를 감산하여 보상된 출력 신호를 제공하는 단계를 포함하고, 보상된 출력 신호는, 그 다음, 다운스트림 스피치 처리 모듈에 제공된다.
따라서, 도 23에서, 저역-통과 필터(282)에 의해 생성된 오디오 대역 성분은 감산기(2102)에 전달되고, 블록(286) 및 저역-통과 필터(288)에 의해 생성된 시뮬레이션된 비선형 신호는 오디오 대역 성분으로부터 감산된다. 이것은, 초음파 신호의 하향변환에 의해 야기된 임의의 성분을 오디오 대역 신호로부터 제거하려고 시도한다.
결과적인 보상된 오디오 대역 신호는 다운스트림 스피치 처리 모듈에 전달된다.
도 24는 일부 다른 실시예들에서 초음파 모니터링 블록(266)의 형태를 도시하는 블록도이고, 여기서, 마이크로폰(212) 또는 다른 곳에서의 비선형성은 알려져 있지 않다(예를 들어, 비선형성의 크기 및/또는 2차 비선형성 및 3차 비선형성의 상대적 강도). 이 경우, 비선형성을 시뮬레이션하는 단계는, 비오디오 대역 성분을 적응형 비선형성 모듈에 제공하는 단계를 포함하고, 이 방법은, 보상된 출력 신호 내의 시뮬레이션된 비선형성 신호의 성분이 최소화되도록 적응형 비선형성 모듈을 제어하는 단계를 포함한다.
따라서, 도 24는, 수신된 신호가, 입력 사운드 신호를 필터링하여 입력 사운드 신호의 오디오 대역 성분을 획득하는, 저역-통과 필터(LPF)(282), 예를 들어 ~ 20kHz 이하의 차단 주파수를 갖는 저역-통과 필터에 전달되는 것을 도시한다.
도 24는 수신된 신호가 대역-통과 필터(BPF)(2122)에 전달되는 것을 도시한다. 통과 대역의 하단은 예를 들어 ~ 20kHz일 수 있고, 통과 대역의 상단은 양자화 노이즈에 의해 손상된 주파수들, 예를 들어 ~ 90kHz를 배제하는 주파수에 있다.
이들 실시예들에서, 입력 사운드 신호의 비오디오 대역 성분은, 신호에 미치는 비선형성의 영향을 시뮬레이션하는 적응형 블록(2140)에 전달된다. 블록(2140)의 출력은 저역-통과 필터(288)에 전달된다.
앞서와 같이, 다운스트림 스피치 처리 모듈의 동작의 조정은, 도 16의 방법의 단계 258에서, 보상된 사운드 신호를 다운스트림 스피치 처리 모듈에 제공하는 단계를 포함한다.
더 구체적으로는, 이 예시된 예에서, 보상된 사운드 신호를 제공하는 단계는, 오디오 대역 성분으로부터 시뮬레이션된 비선형 신호를 감산하여 보상된 출력 신호를 제공하는 단계를 포함하고, 보상된 출력 신호는, 그 다음, 다운스트림 스피치 처리 모듈에 제공된다.
따라서, 도 24에서, 저역-통과 필터(282)에 의해 생성된 오디오 대역 성분은 감산기(2102)에 전달되고, 블록(2140) 및 저역-통과 필터(288)에 의해 생성된 시뮬레이션된 비선형 신호는 오디오 대역 성분으로부터 감산된다. 이것은, 초음파 신호의 하향변환에 의해 야기된 임의의 성분을 오디오 대역 신호로부터 제거하려고 시도한다.
결과적인 보상된 오디오 대역 신호는 다운스트림 스피치 처리 모듈에 전달된다.
한 예에서, 비선형성은 블록 2140에서 다항식 p(x)로 모델링될 수 있고, 여기서, 에러는 감산기(2102)의 출력으로부터 피드백된다.
최소 평균 제곱 알고리즘은 다음과 같이 m번째 다항식 항
Figure pct00001
을 업데이트할 수 있다:
Figure pct00002
대안적 버전은 에러 신호에 필터링을 적용한다:
Figure pct00003
여기서, λ는 필터 함수이다.
예를 들어, 간단한 Boxcar 필터가 이용될 수 있다.
전술된 임의의 실시예는, 제1 스테이지가 도 19에 도시된 것에 대응하는, 2-스테이지 시스템에서 이용될 수 있다. 즉, 수신된 신호는 필터링되어 입력 신호의 오디오 대역 성분 및 비오디오 대역(예를 들어, 초음파) 성분을 획득한다. 비오디오 대역 성분 내의 신호 전력이 임계값 아래인지 또는 위인지가 결정된다. 초음파 대역에서 낮은 전력 레벨이 있다면, 이것은 오디오 대역으로의 오디오 신호의 하향변환에 의해 야기되는 문제가 있을 가능성이 거의 없다는 것을 나타낸다. 초음파 대역에서 더 높은 전력 레벨이 존재한다면, 문제의 가능성이 있고, 따라서, 간섭 가능성이 있는지를 결정하고 요구된다면 완화 조치를 취하기 위해, 도 21, 도 22, 도 23 또는 도 24를 참조하여 전술된 추가 처리가 수행된다. 예를 들어, 비오디오 대역 성분 내의 측정된 신호 전력 레벨이 임계 레벨 X 미만이라면, 입력 사운드 신호는 비오디오 대역 간섭이 없는 것으로 플래그될 수 있고, 비오디오 대역 성분 내의 측정된 신호 전력 레벨이 임계 레벨 X보다 높다면, 오디오 대역 및 비오디오 대역 성분들이 비교되어 비오디오 대역으로부터의 오디오 대역 내의 가능한 간섭을 식별할 수 있다.
이것은, 비오디오 대역 성분이 임계 레벨보다 높은 신호 전력을 갖는 상황에서만 비교 단계가 수행될 것이므로, 저전력 동작을 허용한다. 이러한 임계값 아래의 신호 전력을 갖는 비오디오 대역 성분의 경우, 다운스트림 스피치 처리에 이용되는 입력 사운드 신호에는 어떠한 간섭도 존재하지 않을 것이라고 가정될 수 있다.
본 기술분야의 통상의 기술자라면, 전술된 장치 및 방법들의 일부 양태들이, 예를 들어, 디스크, CD-ROM 또는 DVD-ROM, 판독 전용 메모리(펌웨어) 등의 프로그램된 메모리 등의 비휘발성 캐리어 매체 상에서, 또는 광학적 또는 전기적 신호 캐리어 등의 데이터 캐리어 상에서, 프로세서 제어 코드로서 구현될 수 있다는 것을 인식할 것이다. 많은 응용에서, 본 발명의 실시예들은, DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit) 또는 FPGA(Field Programmable Gate Array) 상에서 구현될 것이다. 따라서, 코드는, 종래의 프로그램 코드 또는 마이크로코드, 또는 예를 들어 ASIC 또는 FPGA를 셋업하거나 제어하기 위한 코드를 포함할 수 있다. 코드는 또한, 재프로그램가능한 로직 게이트 어레이 등의 재구성가능한 장치를 동적으로 구성하기 위한 코드를 포함할 수 있다. 유사하게, 코드는, Verilog TM 또는 VHDL(Very high speed integrated circuit Hardware Description Language) 등의 하드웨어 기술 언어에 대한 코드를 포함할 수 있다. 본 기술분야의 통상의 기술자라면 이해할 수 있는 바와 같이, 코드는, 서로 통신하는 복수의 결합된 컴포넌트들 사이에서 분산될 수 있다. 적절한 경우, 실시예들은 또한, 아날로그 하드웨어를 구성하기 위해 필드-(재)프로그램가능한 아날로그 어레이 또는 유사한 디바이스에서 실행되는 코드를 이용하여 구현될 수도 있다.
본 명세서에서 사용될 때, 모듈이라는 용어는, 커스텀 정의된 회로 등의 전용 하드웨어 컴포넌트들에 의해 적어도 부분적으로 구현되거나 및/또는 적절한 범용 프로세서 등에서 실행되는 하나 이상의 소프트웨어 프로세서 또는 적절한 코드에 의해 적어도 부분적으로 구현될 수 있는 기능 유닛 또는 블록을 지칭하기 위해 사용된다는 점에 유의해야 한다. 모듈 자체는 다른 모듈 또는 기능 유닛을 포함할 수 있다. 모듈은, 함께 배치될 필요가 없고 상이한 집적 회로 상에 제공될 수 있거나 및/또는 상이한 프로세서들 상에서 실행되는 복수의 컴포넌트 또는 서브-모듈들에 의해 제공될 수 있다.
실시예들은, 호스트 디바이스에서, 특히, 모바일 컴퓨팅 디바이스, 예를 들어, 랩탑 또는 태블릿 컴퓨터, 게임 콘솔, 원격 제어 디바이스, 가정 자동화 제어기 또는 가정용 온도 또는 조명 제어 시스템을 포함한 가정용 기기, 장난감, 로봇 등의 머신, 오디오 재생기, 비디오 재생기, 또는 모바일 전화, 예를 들어 스마트폰 등의, 휴대형 및/또는 배터리 동력형 호스트 디바이스에서 구현될 수 있다.
상기 언급한 실시예들은 본 발명을 제한하는 것이 아니라 예시하는 것이며, 본 기술분야의 통상의 기술자라면 첨부된 청구항들의 범위로부터 벗어나지 않고 많은 대안적 실시예들을 설계할 수 있을 것이라는 점에 유의해야 한다. 단어 "~을 포함하는(comprising)"은 청구항에 열거된 것들 이외의 요소나 단계의 존재를 배제하지 않으며, "한(a)" 또는 "하나(an)"는 복수를 배제하지 않으며, 단일 피처 또는 기타의 유닛은 청구항에 기재된 수 개의 유닛들의 기능을 수행할 수도 있다. 청구항들 내의 임의의 참조 번호 또는 라벨들은 그들의 범위를 제한하는 것으로 해석되어서는 안 된다.

Claims (77)

  1. 생기(liveness)를 검출하는 방법으로서,
    스피치 신호를 수신하는 단계;
    초음파 신호를 생성하는 단계;
    상기 생성된 초음파 신호의 반사를 검출하는 단계;
    상기 생성된 초음파 신호의 반사에서 도플러 편이들을 검출하는 단계; 및
    상기 수신된 스피치 신호가 화자의 생기를 나타내는지를 상기 검출된 도플러 편이들에 기초하여 식별하는 단계
    를 포함하고,
    상기 수신된 스피치 신호가 생기를 나타내는지를 상기 검출된 도플러 편이들에 기초하여 식별하는 단계는:
    상기 검출된 도플러 편이들이 스피치 분절률(speech articulation rate)에 대응하는지를 결정하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 검출된 도플러 편이들이 스피치 분절률에 대응하는지를 결정하는 단계는:
    상기 검출된 도플러 편이들이 4 내지 10Hz 범위의 주파수에서의 얼굴 움직임들에 대응하는지를 결정하는 단계를 포함하는 방법.
  3. 제1항 또는 제2에 있어서, 상기 검출된 도플러 편이들이 스피치 분절률에 대응하는지를 결정하는 단계는:
    상기 스피치 신호와 연관된 분절률을 결정하는 단계; 및
    상기 검출된 도플러 편이들이 상기 스피치 신호와 연관된 상기 분절률에서의 얼굴 움직임들에 대응하는지를 결정하는 단계
    를 포함하는 방법.
  4. 제2항에 있어서,
    상기 검출된 도플러 편이들이 4 내지 10Hz 범위의 주파수에서의 얼굴 움직임들에 대응한다고 결정된다면:
    상기 스피치 신호와 연관된 분절률을 결정하는 단계;
    상기 검출된 도플러 편이들이 상기 스피치 신호와 연관된 상기 분절률에서의 입술 움직임들에 대응하는지를 결정하는 단계; 및
    상기 검출된 도플러 편이들이 상기 스피치 신호와 연관된 상기 분절률에서의 입술 움직임들에 대응한다면, 상기 수신된 스피치 신호가 생기를 나타낸다고 결정하는 단계
    를 더 포함하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 음성 바이오메트릭 시스템에서의 이용의 경우, 상기 수신된 스피치 신호가 생기를 나타내는지를 식별하는 단계는, 상기 수신된 스피치 신호가 재생 공격(replay attack)의 생성물일 수 있는지를 결정하는 단계를 포함하는 방법.
  6. 생기 검출을 위한 시스템으로서,
    마이크로폰으로부터 오디오 신호를 수신하기 위한 적어도 하나의 마이크로폰 입력; 및
    신호를 초음파 트랜스듀서에 전송하기 위한 적어도 하나의 트랜스듀서 출력
    을 포함하고, 상기 시스템은:
    상기 적어도 하나의 마이크로폰 입력에서 스피치 신호를 수신하고;
    신호를 전송함으로써 상기 적어도 하나의 트랜스듀서 출력에서 초음파 신호를 생성하며;
    상기 생성된 초음파 신호의 반사를 검출하고;
    상기 생성된 초음파 신호의 반사에서 도플러 편이들을 검출하며;
    상기 수신된 스피치 신호가 화자의 생기를 나타내는지를 상기 검출된 도플러 편이들에 기초하여 식별하도록
    구성되고,
    상기 수신된 스피치 신호가 생기를 나타내는지를 상기 검출된 도플러 편이들에 기초하여 식별하는 것은:
    상기 검출된 도플러 편이들이 스피치 분절률에 대응하는지를 결정하는 것을 포함하는 시스템.
  7. 제6항에 따른 시스템을 포함하는 디바이스.
  8. 제7항에 있어서, 상기 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함하는 디바이스.
  9. 제1항 내지 제5항 중 어느 한 항에 따른 방법을 수행하기 위한 명령어들 및 컴퓨터 판독가능한 유형의 매체(tangible medium)를 포함하는 컴퓨터 프로그램 제품.
  10. 컴퓨터 실행가능한 명령어들이 저장된 비일시적인 컴퓨터 판독가능한 저장 매체로서, 상기 명령어들은 프로세서 회로에 의해 실행될 때, 상기 프로세서 회로로 하여금 제1항 내지 제5항 중 어느 한 항에 따른 방법을 수행하게 하는 비일시적인 컴퓨터 판독가능한 저장 매체.
  11. 제10항에 따른 비일시적인 컴퓨터 판독가능한 저장 매체를 포함하는 디바이스.
  12. 제11항에 있어서, 상기 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함하는 디바이스.
  13. 생기 검출의 방법으로서,
    초음파 신호를 생성하는 단계;
    상기 초음파 신호의 반사를 포함하는 오디오 신호를 수신하는 단계;
    상기 초음파 신호의 반사를 포함하는 상기 수신된 오디오 신호를 이용하여 화자의 생기를 검출하는 단계;
    주변 초음파 노이즈를 모니터링하는 단계; 및
    상기 반사된 초음파의 레벨 및 상기 모니터링된 주변 초음파 노이즈에 기초하여, 상기 오디오 신호를 수신하는 시스템의 동작을 조정하는 단계
    를 포함하는 방법.
  14. 제13항에 있어서, 음성 바이오메트릭 시스템에서의 이용의 경우, 화자의 생기를 검출하는 단계는, 수신된 스피치 신호가 재생 공격의 생성물일 수 있는지를 결정하는 단계를 포함하고,
    상기 반사된 초음파의 레벨 및 상기 모니터링된 주변 초음파 노이즈에 기초하여 상기 음성 바이오메트릭 시스템의 동작을 조정하는 단계를 포함하는 방법.
  15. 제14항에 있어서,
    상기 생성된 초음파 신호의 반사에서 도플러 편이들을 검출하는 단계; 및
    상기 수신된 스피치 신호가 상기 음성 바이오메트릭 시스템에 관한 재생 공격의 결과일 수 있는지를 상기 검출된 도플러 편이들에 기초하여 식별하는 단계
    를 포함하고,
    상기 방법은:
    상기 수신된 스피치 신호가 재생 공격의 결과일 수 있는지에 관한 식별에 부여할 의존도(reliance)를, 상기 모니터링된 주변 초음파 노이즈의 레벨에 기초하여 결정하는 단계를 더 포함하는 방법.
  16. 제15항에 있어서, 상기 식별에 부여할 의존도를 결정하는 단계는, 상기 모니터링된 주변 초음파 노이즈의 레벨이 제1 임계 레벨을 초과한다면 상기 식별을 수행하지 않는 단계를 포함하는 방법.
  17. 제14항에 있어서,
    상기 생성된 초음파 신호의 반사에서 도플러 편이들을 검출하는 단계; 및
    상기 수신된 스피치 신호가 상기 음성 바이오메트릭 시스템에 관한 재생 공격의 결과일 수 있는지를 상기 검출된 도플러 편이들에 기초하여 식별하는 단계
    를 포함하고,
    상기 수신된 스피치 신호가 재생 공격으로부터 발생할 수 있는지를 상기 검출된 도플러 편이들에 기초하여 식별하는 단계는:
    상기 검출된 도플러 편이들과 상기 수신된 스피치 신호 사이의 상관을 결정하는 단계; 및
    상기 수신된 스피치 신호가 재생 공격으로부터 발생할 수 있는지를 식별하는데 이용되는 임계 상관 값을, 상기 모니터링된 주변 초음파 노이즈의 레벨에 기초하여 적합화하는(adapting) 단계
    를 포함하는 방법.
  18. 생기 검출을 위한 시스템으로서,
    마이크로폰으로부터 오디오 신호를 수신하기 위한 적어도 하나의 마이크로폰 입력; 및
    신호를 초음파 트랜스듀서에 전송하기 위한 적어도 하나의 트랜스듀서 출력
    을 포함하고, 상기 시스템은:
    초음파 신호를 생성하고;
    상기 초음파 신호의 반사를 포함하는 오디오 신호를 수신하며;
    상기 초음파 신호의 반사를 포함하는 상기 수신된 오디오 신호를 이용하여 화자의 생기를 검출하고;
    주변 초음파 노이즈를 모니터링하며;
    상기 반사된 초음파의 레벨 및 상기 모니터링된 주변 초음파 노이즈에 기초하여, 상기 오디오 신호를 수신하는 시스템의 동작을 조정하도록
    구성되는 시스템.
  19. 제18항에 따른 시스템을 포함하는 디바이스.
  20. 제19항에 있어서, 상기 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함하는 디바이스.
  21. 제13항 내지 제17항 중 어느 한 항에 따른 방법을 수행하기 위한 명령어들 및 컴퓨터 판독가능한 유형의 매체를 포함하는 컴퓨터 프로그램 제품.
  22. 컴퓨터 실행가능한 명령어들이 저장된 비일시적인 컴퓨터 판독가능한 저장 매체로서, 상기 명령어들은 프로세서 회로에 의해 실행될 때, 상기 프로세서 회로로 하여금 제13항 내지 제17항 중 어느 한 항에 따른 방법을 수행하게 하는 비일시적인 컴퓨터 판독가능한 저장 매체.
  23. 제22항에 따른 비일시적인 컴퓨터 판독가능한 저장 매체를 포함하는 디바이스.
  24. 제23항에 있어서, 상기 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함하는 디바이스.
  25. 디바이스에서의 생기 검출 방법으로서,
    음성 소스로부터 스피치 신호를 수신하는 단계;
    상기 디바이스의 트랜스듀서를 통해 초음파 신호를 생성 및 전송하는 단계;
    상기 전송된 초음파 신호의 반사를 검출하는 단계;
    상기 생성된 초음파 신호의 반사에서 도플러 편이들을 검출하는 단계; 및
    상기 수신된 스피치 신호가 화자의 생기를 나타내는지를 상기 검출된 도플러 편이들에 기초하여 식별하는 단계
    를 포함하고,
    상기 방법은:
    상기 디바이스의 위치에 관한 정보를 획득하는 단계; 및
    상기 디바이스의 위치에 관한 정보에 기초하여 상기 초음파 신호의 생성 및 전송을 적합화하는 단계
    를 더 포함하는 방법.
  26. 제25항에 있어서, 상기 초음파 신호의 생성 및 전송을 적합화하는 단계는:
    상기 초음파 신호의 전송 전력을 조정하는 단계를 포함하는 방법.
  27. 제25항 또는 제26항에 있어서, 상기 디바이스는 복수의 트랜스듀서를 갖고, 상기 초음파 신호의 생성 및 전송을 적합화하는 단계는:
    상기 초음파 신호가 생성되는 트랜스듀서를 선택하는 단계를 포함하는 방법.
  28. 제25항, 제26항 또는 제27항에 있어서, 상기 디바이스의 위치에 관한 정보를 획득하는 단계는, 상기 디바이스의 배향에 관한 정보를 획득하는 단계를 포함하는 방법.
  29. 제25항, 제26항, 제27항, 또는 제28항에 있어서, 상기 디바이스의 위치에 관한 정보를 획득하는 단계는, 상기 음성 소스로부터 상기 디바이스의 거리에 관한 정보를 획득하는 단계를 포함하는 방법.
  30. 제25항에 있어서, 상기 디바이스는, 적어도 상기 디바이스의 하단에서의 제1 트랜스듀서 및 상기 디바이스의 상단에서의 제2 트랜스듀서를 포함하는 모바일 전화이고, 상기 디바이스의 위치에 관한 정보에 기초하여 상기 초음파 신호의 생성 및 전송을 적합화하는 단계는:
    상기 디바이스의 위치에 관한 정보가 상기 디바이스가 근접 대화 모드(close talk mode)에서 이용되고 있다는 것을 나타낸다면, 1cm에서 70 내지 90dB SPL 범위의 세기로 상기 제1 트랜스듀서로부터 상기 초음파 신호를 전송하는 단계를 포함하는 방법.
  31. 제25항에 있어서, 상기 디바이스는, 적어도 상기 디바이스의 하단에서의 제1 트랜스듀서 및 상기 디바이스의 상단에서의 제2 트랜스듀서를 포함하는 모바일 전화이고, 상기 디바이스의 위치에 관한 정보에 기초하여 상기 초음파 신호의 생성 및 전송을 적합화하는 단계는:
    상기 디바이스의 위치에 관한 정보가 상기 디바이스가 근방 대화 모드(near talk mode)에서 이용되고 있다는 것을 나타낸다면, 1cm에서 90 내지 110dB SPL 범위의 세기로 상기 초음파 신호를 전송하는 단계를 포함하는 방법.
  32. 제27항에 있어서, 상기 디바이스의 위치에 관한 정보에 기초하여 상기 초음파 신호의 생성 및 전송을 적합화하는 단계는:
    상기 디바이스의 위치에 관한 정보가 상기 디바이스가 대체로 수평 배향에서 이용되고 있다는 것을 나타낸다면, 상기 제1 트랜스듀서로부터 상기 초음파 신호를 전송하는 단계를 포함하는 방법.
  33. 제27항 또는 제32항에 있어서, 상기 디바이스의 위치에 관한 정보에 기초하여 상기 초음파 신호의 생성 및 전송을 적합화하는 단계는:
    상기 디바이스의 위치에 관한 정보가 상기 디바이스가 대체로 수직 배향에서 이용되고 있다는 것을 나타낸다면, 상기 제2 트랜스듀서로부터 상기 초음파 신호를 전송하는 단계를 포함하는 방법.
  34. 제25항 내지 제33항 중 어느 한 항에 있어서, 상기 디바이스의 위치에 관한 정보에 기초하여 상기 초음파 신호의 생성 및 전송을 적합화하는 단계는:
    디바이스의 위치에 관한 정보가 상기 디바이스가 원거리 대화 모드(far talk mode)로 이용되고 있다는 것을 나타낸다면, 상기 초음파 신호의 전송을 방지하는 단계를 포함하는 방법.
  35. 제29항에 있어서, 상기 초음파 신호의 생성 및 전송을 적합화하는 단계는, 미리결정된 최대 거리 미만의 거리들에 대해, 상기 디바이스가 상기 음성 소스로부터 더 멀리 있을 때 더 높은 전력이 이용되도록, 상기 초음파 신호의 전송 전력을 조정하는 단계를 포함하는 방법.
  36. 제25항 내지 제35항 중 어느 한 항에 있어서, 상기 디바이스의 위치에 관한 정보를 획득하는 단계는, 복수의 확성기 트랜스듀서들 중 어느 것이 상기 음성 소스에 가장 가까운지에 관한 정보를 획득하는 단계를 포함하고, 상기 초음파 신호의 생성 및 전송을 적합화하는 단계는 주로 또는 전적으로 해당 확성기로부터 상기 초음파 신호를 전송하는 단계를 포함하는 방법.
  37. 제25항 내지 제36항 중 어느 한 항에 있어서, 자이로스코프들, 가속도계들, 근접 센서들, 조도 센서들, 터치 센서들, 사운드 레벨 센서들, 및 카메라 중 하나 이상으로부터 상기 디바이스의 위치에 관한 정보를 획득하는 단계를 포함하는 방법.
  38. 제25항 내지 제37항 중 어느 한 항에 있어서, 음성 바이오메트릭 시스템에서의 이용의 경우, 상기 수신된 스피치 신호가 생기를 나타내는지를 식별하는 단계는, 상기 수신된 스피치 신호가 재생 공격의 생성물일 수 있는지를 결정하는 단계를 포함하는 방법.
  39. 디바이스에서의 생기 검출을 위한 시스템으로서,
    마이크로폰으로부터 오디오 신호를 수신하기 위한 적어도 하나의 마이크로폰 입력; 및
    신호를 초음파에 전송하기 위한 적어도 하나의 트랜스듀서 출력
    을 포함하고, 상기 시스템은:
    상기 적어도 하나의 마이크로폰 입력으로부터 스피치 신호를 수신하고;
    상기 디바이스의 트랜스듀서를 통해 초음파 신호를 전송하기 위해, 상기 트랜스듀서 출력을 통해 제어 신호를 생성하며;
    상기 전송된 초음파 신호의 반사를 검출하고;
    상기 생성된 초음파 신호의 반사에서 도플러 편이들을 검출하며;
    상기 수신된 스피치 신호가 화자의 생기를 나타내는지를 상기 검출된 도플러 편이들에 기초하여 식별하도록
    구성되고,
    상기 방법은:
    상기 디바이스의 위치에 관한 정보를 획득하는 단계; 및
    상기 디바이스의 위치에 관한 정보에 기초하여 상기 초음파 신호의 생성 및 전송을 적합화하는 단계
    를 더 포함하는 시스템.
  40. 제39항에 따른 시스템을 포함하는 디바이스.
  41. 제40항에 있어서, 상기 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함하는 디바이스.
  42. 제25항 내지 제38항 중 어느 한 항에 따른 방법을 수행하기 위한 명령어들 및 컴퓨터 판독가능한 유형의 매체를 포함하는 컴퓨터 프로그램 제품.
  43. 컴퓨터 실행가능한 명령어들이 저장된 비일시적인 컴퓨터 판독가능한 저장 매체로서, 상기 명령어들은 프로세서 회로에 의해 실행될 때, 상기 프로세서 회로로 하여금 제25항 내지 제38항 중 어느 한 항에 따른 방법을 수행하게 하는 비일시적인 컴퓨터 판독가능한 저장 매체.
  44. 제43항에 따른 비일시적인 컴퓨터 판독가능한 저장 매체를 포함하는 디바이스.
  45. 제44항에 있어서, 상기 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함하는 디바이스.
  46. 적어도 하나의 스피치 처리 모듈을 갖는 스피치 처리 시스템의 견고성(robustness)을 개선하기 위한 방법으로서,
    오디오 및 비오디오 주파수들을 포함하는 입력 사운드 신호를 수신하는 단계;
    상기 입력 사운드 신호를 오디오 대역 성분 및 비오디오 대역 성분으로 분리하는 단계;
    상기 비오디오 대역 성분으로부터의 상기 오디오 대역 내의 가능한 간섭을 식별하는 단계; 및
    상기 식별에 기초하여 다운스트림 스피치 처리 모듈의 동작을 조정하는 단계
    를 포함하는 방법.
  47. 제46항에 있어서, 상기 비오디오 대역 성분으로부터의 상기 오디오 대역 내의 가능한 간섭을 식별하는 단계는, 상기 비오디오 대역 성분의 전력 레벨이 임계값을 초과하는지를 결정하는 단계, 및 만일 그렇다면, 상기 비오디오 대역 성분으로부터의 상기 오디오 대역 내의 가능한 간섭을 식별하는 단계를 포함하는 방법.
  48. 제46항에 있어서, 상기 비오디오 대역 성분으로부터의 상기 오디오 대역 내의 가능한 간섭을 식별하는 단계는, 상기 오디오 대역 및 비오디오 대역 성분들을 비교하는 단계를 포함하는 방법.
  49. 제48항에 있어서, 상기 비오디오 대역 성분으로부터의 상기 오디오 대역 내의 가능한 간섭을 식별하는 단계는:
    상기 오디오 대역 성분(Pa) 내의 신호 전력을 측정하는 단계;
    상기 비오디오 대역 성분(Pb) 내의 신호 전력을 측정하는 단계; 및
    (Pa/Pb) < 임계 한계이면, 상기 입력 사운드 신호의 품질을 스피치 처리에 대해 신뢰할 수 없는 것으로 플래그하는 단계
    를 포함하고,
    상기 조정하는 단계는, 상기 플래그된 신뢰할 수 없는 품질에 기초하여 다운스트림 스피치 처리 모듈의 동작을 제어하는 단계를 포함하는 방법.
  50. 제48항에 있어서, 상기 비교하는 단계는:
    상기 비오디오 대역 성분의 신호의 엔벨로프를 검출하는 단계;
    상기 신호의 엔벨로프와 상기 오디오 대역 성분 사이의 상관의 레벨을 검출하는 단계; 및
    상기 상관의 레벨이 임계값을 초과한다면 상기 오디오 대역 내의 가능한 비오디오 대역 간섭을 결정하는 단계
    를 포함하는 방법.
  51. 제48항에 있어서, 상기 비교하는 단계는:
    상기 비오디오 대역 성분에 관한 비선형성의 효과를 시뮬레이션하여 시뮬레이션된 비선형 신호를 제공하는 단계;
    상기 시뮬레이션된 비선형 신호와 상기 오디오 대역 성분 사이의 상관의 레벨을 검출하는 단계; 및
    상기 상관의 레벨이 임계값을 초과한다면 상기 오디오 대역 내의 가능한 비오디오 대역 간섭을 결정하는 단계
    를 포함하는 방법.
  52. 제50항 또는 제51항에 있어서, 상기 조정하는 단계는, 상기 오디오 대역 내의 가능한 비오디오 대역 간섭의 검출을 다운스트림 스피치 처리 모듈에게 플래그하는 단계를 포함하는 방법.
  53. 제46항 내지 제52항 중 어느 한 항에 있어서, 상기 조정하는 단계는, 보상된 사운드 신호를 다운스트림 스피치 처리 모듈에 제공하는 단계를 포함하는 방법.
  54. 제53항에 있어서, 상기 보상된 사운드 신호를 제공하는 단계는,
    보상된 출력 신호를 제공하기 위해 상기 오디오 대역 성분으로부터 시뮬레이션된 비선형 신호를 감산하는 단계; 및
    상기 보상된 출력 신호를 다운스트림 스피치 처리 모듈에 제공하는 단계
    를 포함하는 방법.
  55. 제48항에 있어서, 상기 비교하는 단계 및 조정하는 단계는:
    시뮬레이션된 비선형 신호를 제공하기 위해 상기 비오디오 대역 성분에 관한 상기 비선형성의 효과를 시뮬레이션하는 단계;
    보상된 출력 신호를 제공하기 위해 상기 오디오 대역 성분으로부터 상기 시뮬레이션된 비선형 신호를 감산하는 단계; 및
    상기 보상된 출력 신호를 다운스트림 스피치 처리 모듈에 제공하는 단계
    를 포함하는 방법.
  56. 제54항 또는 제55항에 있어서, 상기 감산하는 단계는:
    상기 시뮬레이션된 비선형성 신호를 필터에 인가하는 단계; 및
    보상된 출력 신호를 제공하기 위해 상기 입력 사운드 신호의 상기 오디오 대역 성분으로부터 상기 필터링된 시뮬레이션된 비선형성 신호를 감산하는 단계
    를 포함하는 방법.
  57. 제56항에 있어서, 상기 필터는 적응형 필터이고, 상기 방법은 상기 보상된 출력 신호에서 상기 필터링된 시뮬레이션된 비선형성 신호의 성분이 최소화되도록 상기 적응형 필터를 적합화하는 단계를 포함하는 방법.
  58. 제57항에 있어서, 상기 적응형 필터를 적합화하는 단계는 상기 필터의 이득을 적합화하는 단계를 포함하는 방법.
  59. 제57항 또는 제58항에 있어서, 상기 적응형 필터를 적합화하는 단계는 상기 필터의 필터 계수들을 적합화하는 단계를 포함하는 방법.
  60. 제54항 또는 제55항에 있어서, 상기 비선형성을 시뮬레이션하는 단계는 상기 비오디오 대역 성분을 적응형 비선형성 모듈에 제공하는 단계를 포함하고, 상기 방법은 상기 보상된 출력 신호 내의 상기 시뮬레이션된 비선형성 신호의 성분이 최소화되도록 상기 적응형 비선형성 모듈을 제어하는 단계를 포함하는 방법.
  61. 제46항 내지 제60항 중 어느 한 항에 있어서,
    상기 비오디오 대역 성분(Pb) 내의 신호 전력을 측정하는 단계를 더 포함하고, 상기 방법은 상기 신호 전력을 측정하는 단계에 응답하여:
    상기 측정된 신호 전력 레벨(Pb)이 임계 레벨 X 미만이면, 상기 방법은 상기 입력 사운드 신호를 비오디오 대역 간섭이 없는 것으로 플래그하는 단계를 포함하고,
    상기 측정된 신호 전력 레벨(Pb)이 임계 레벨 X보다 높다면, 상기 방법은 상기 비오디오 대역 성분으로부터의 상기 오디오 대역 내의 가능한 간섭을 식별하는 단계를 수행하는 방법.
  62. 제46항 내지 제61항 중 어느 한 항에 있어서, 상기 분리하는 단계는,
    상기 입력 사운드 신호의 오디오 대역 성분을 획득하기 위해 상기 입력 사운드 신호를 필터링하는 단계; 및
    상기 입력 사운드 신호의 비오디오 대역 성분을 획득하기 위해 상기 입력 사운드 신호를 필터링하는 단계
    를 포함하는 방법.
  63. 제46항 내지 제62항 중 어느 한 항에 있어서, 상기 스피치 처리 시스템은 음성 바이오메트릭 시스템인 방법.
  64. 초음파 간섭 신호를 검출하는 방법으로서,
    입력 신호의 오디오 대역 성분을 획득하기 위해 상기 입력 신호를 필터링하는 단계;
    상기 입력 신호의 초음파 성분을 획득하기 위해 상기 입력 신호를 필터링하는 단계;
    상기 입력 신호의 초음파 성분의 엔벨로프를 검출하는 단계;
    상기 입력 신호의 오디오 대역 성분과 상기 입력 신호의 초음파 성분의 엔벨로프 사이의 상관도를 검출하는 단계; 및
    상기 입력 신호의 오디오 대역 성분과 상기 입력 신호의 초음파 성분의 엔벨로프 사이의 상관도가 임계 레벨을 초과한다면, 초음파 간섭 신호의 존재를 검출하는 단계
    를 포함하는 방법.
  65. 초음파 간섭 신호를 검출하는 방법으로서,
    입력 신호의 오디오 대역 성분을 획득하기 위해 상기 입력 신호를 필터링하는 단계;
    상기 입력 신호의 초음파 성분을 획득하기 위해 상기 입력 신호를 필터링하는 단계;
    상기 입력 신호의 비선형 하향변환(downconversion)의 효과를 시뮬레이션하기 위해 상기 초음파 성분을 수정하는 단계
    상기 입력 신호의 오디오 대역 성분과 상기 입력 신호의 수정된 초음파 성분 사이의 상관도를 검출하는 단계; 및
    상기 입력 신호의 오디오 대역 성분과 상기 입력 신호의 수정된 초음파 성분 사이의 상관도가 임계 레벨을 초과한다면, 초음파 간섭 신호의 존재를 검출하는 단계
    를 포함하는 방법.
  66. 초음파 간섭 신호를 포함하는 신호를 처리하는 방법으로서,
    입력 신호의 오디오 대역 성분을 획득하기 위해 상기 입력 신호를 필터링하는 단계;
    상기 입력 신호의 초음파 성분을 획득하기 위해 상기 입력 신호를 필터링하는 단계;
    상기 입력 신호의 비선형 하향변환의 효과를 시뮬레이션하기 위해 상기 초음파 성분을 수정하는 단계; 및
    상기 입력 신호의 오디오 대역 성분과 상기 수정된 초음파 성분을 비교하는 단계
    를 포함하는 방법.
  67. 제66항에 있어서, 상기 입력 신호의 오디오 대역 성분과 상기 수정된 초음파 성분을 비교하는 단계는:
    상기 입력 신호의 오디오 대역 성분과 상기 입력 신호의 수정된 초음파 성분 사이의 상관도를 검출하는 단계; 및
    상기 입력 신호의 오디오 대역 성분과 상기 입력 신호의 수정된 초음파 성분 사이의 상관도가 임계 레벨을 초과한다면, 초음파 간섭 신호의 존재를 검출하는 단계
    를 포함하는 방법.
  68. 제67항에 있어서, 어떠한 초음파 간섭 신호도 검출되지 않은 경우에만 상기 입력 신호의 오디오 대역 성분을 스피치 처리 모듈에 전송하는 단계를 더 포함하는 방법.
  69. 제66항에 있어서, 상기 입력 신호의 오디오 대역 성분과 상기 수정된 초음파 성분을 비교하는 단계는:
    상기 입력 신호의 수정된 초음파 성분을 필터에 인가하는 단계; 및
    출력 신호를 획득하기 위해 상기 입력 신호의 오디오 대역 성분으로부터 상기 입력 신호의 필터링된 수정된 초음파 성분을 감산하는 단계
    를 포함하는 방법.
  70. 제69항에 있어서, 상기 필터는 적응형 필터이고, 상기 방법은 상기 출력 신호 내의 상기 필터링된 수정된 초음파 성분의 성분이 최소화되도록 상기 적응형 필터를 적합화하는 단계를 포함하는 방법.
  71. 적어도 하나의 스피치 처리 모듈을 갖는 스피치 처리 시스템의 견고성을 개선하기 위한 시스템으로서, 상기 시스템은 오디오 및 비오디오 주파수들을 포함하는 입력 사운드 신호를 수신하기 위한 입력; 및 상기 입력 사운드 신호로부터 비오디오 대역 성분을 분리하기 위한 필터를 포함하고, 상기 시스템은:
    오디오 및 비오디오 주파수들을 포함하는 입력 사운드 신호를 수신하고;
    상기 입력 사운드 신호를 오디오 대역 성분 및 비오디오 대역 성분으로 분리하며;
    상기 비오디오 대역 성분으로부터의 상기 오디오 대역 내의 가능한 간섭을 식별하고;
    상기 식별에 기초하여 다운스트림 스피치 처리 모듈의 동작을 조정하도록
    구성되는 시스템.
  72. 제71항에 따른 시스템을 포함하는 디바이스.
  73. 제72항에 있어서, 상기 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함하는 디바이스.
  74. 제46항 내지 제70항 중 어느 한 항에 따른 방법을 수행하기 위한 명령어들 및 컴퓨터 판독가능한 유형의 매체를 포함하는 컴퓨터 프로그램 제품.
  75. 컴퓨터 실행가능한 명령어들이 저장된 비일시적인 컴퓨터 판독가능한 저장 매체로서, 상기 명령어들은 프로세서 회로에 의해 실행될 때, 상기 프로세서 회로로 하여금 제46항 내지 제70항 중 어느 한 항에 따른 방법을 수행하게 하는 비일시적인 컴퓨터 판독가능한 저장 매체.
  76. 제75항에 따른 비일시적인 컴퓨터 판독가능한 저장 매체를 포함하는 디바이스.
  77. 제75항에 있어서, 상기 디바이스는, 모바일 전화, 오디오 재생기, 비디오 재생기, 모바일 컴퓨팅 플랫폼, 게임 디바이스, 원격 제어기 디바이스, 장난감, 머신, 또는 가정 자동화 제어기 또는 가정용 기기를 포함하는 디바이스.
KR1020207013319A 2017-10-13 2018-10-11 생기의 검출 KR20200062320A (ko)

Applications Claiming Priority (17)

Application Number Priority Date Filing Date Title
US201762572001P 2017-10-13 2017-10-13
US201762572033P 2017-10-13 2017-10-13
US201762571944P 2017-10-13 2017-10-13
US201762572016P 2017-10-13 2017-10-13
US62/571,944 2017-10-13
US62/572,001 2017-10-13
US62/572,033 2017-10-13
US62/572,016 2017-10-13
GBGB1801661.8A GB201801661D0 (en) 2017-10-13 2018-02-01 Detection of liveness
GB1801664.2 2018-02-01
GB1801663.4 2018-02-01
GBGB1801663.4A GB201801663D0 (en) 2017-10-13 2018-02-01 Detection of liveness
GBGB1801664.2A GB201801664D0 (en) 2017-10-13 2018-02-01 Detection of liveness
GB1801661.8 2018-02-01
GBGB1801874.7A GB201801874D0 (en) 2017-10-13 2018-02-06 Improving robustness of speech processing system against ultrasound and dolphin attacks
GB1801874.7 2018-02-06
PCT/GB2018/052907 WO2019073235A1 (en) 2017-10-13 2018-10-11 LIVING CHARACTER DETECTION

Publications (1)

Publication Number Publication Date
KR20200062320A true KR20200062320A (ko) 2020-06-03

Family

ID=66100447

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207013319A KR20200062320A (ko) 2017-10-13 2018-10-11 생기의 검출

Country Status (4)

Country Link
KR (1) KR20200062320A (ko)
CN (1) CN111201568A (ko)
GB (1) GB2581594B (ko)
WO (1) WO2019073235A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220095988A (ko) * 2020-12-30 2022-07-07 삼성전자주식회사 보이스 어시스턴트 서비스에 대한 음성 공격을 탐지하는 장치 및 방법
NO347670B1 (en) * 2021-11-05 2024-02-19 Elliptic Laboratories Asa Proximity and distance detection

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7386372B2 (en) * 1995-06-07 2008-06-10 Automotive Technologies International, Inc. Apparatus and method for determining presence of objects in a vehicle
US20090046538A1 (en) * 1995-06-07 2009-02-19 Automotive Technologies International, Inc. Apparatus and method for Determining Presence of Objects in a Vehicle
US7372770B2 (en) * 2006-09-12 2008-05-13 Mitsubishi Electric Research Laboratories, Inc. Ultrasonic Doppler sensor for speech-based user interface
US8275622B2 (en) * 2009-02-06 2012-09-25 Mitsubishi Electric Research Laboratories, Inc. Ultrasonic doppler sensor for speaker recognition
CN105446474B (zh) * 2014-09-26 2018-08-10 中芯国际集成电路制造(上海)有限公司 可穿戴智能设备及其交互的方法、可穿戴智能设备系统
EP3156978A1 (en) * 2015-10-14 2017-04-19 Samsung Electronics Polska Sp. z o.o. A system and a method for secure speaker verification

Also Published As

Publication number Publication date
WO2019073235A1 (en) 2019-04-18
GB2581594A (en) 2020-08-26
GB202004477D0 (en) 2020-05-13
GB2581594B (en) 2022-08-10
CN111201568A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
US11705135B2 (en) Detection of liveness
US11017252B2 (en) Detection of liveness
US11023755B2 (en) Detection of liveness
US10832702B2 (en) Robustness of speech processing system against ultrasound and dolphin attacks
US11704397B2 (en) Detection of replay attack
US10553235B2 (en) Transparent near-end user control over far-end speech enhancement processing
US11276409B2 (en) Detection of replay attack
KR101540896B1 (ko) 전자 디바이스 상에서의 마스킹 신호 생성
US10242695B1 (en) Acoustic echo cancellation using visual cues
JP5940678B2 (ja) 超音波動き検出に基づく音響エコー消去
JP5085556B2 (ja) エコー除去の構成
ES2613494T3 (es) Reducción de ruido
CN109982228B (zh) 一种麦克风故障检测方法及移动终端
EP2987316A1 (en) Echo cancellation
US20140341386A1 (en) Noise reduction
EP2795884A1 (en) Audio conferencing
KR20200062320A (ko) 생기의 검출
KR101659895B1 (ko) 소음 제어 및 감쇄 유도를 위한 장치 및 방법
US20230290335A1 (en) Detection of live speech
WO2015030642A1 (en) Volume reduction for an electronic device
CN108605067B (zh) 播放音频的方法和移动终端
KR102204319B1 (ko) 전기통신 디바이스, 전기통신 시스템, 전기통신 디바이스를 동작시키기 위한 방법 및 컴퓨터 프로그램
GB2618425A (en) Live speech detection
CN115119127A (zh) 密封性能的检测方法及装置、电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application