KR20220139400A - 디지털 마이크로폰을 가진 오디오 시스템 - Google Patents

디지털 마이크로폰을 가진 오디오 시스템 Download PDF

Info

Publication number
KR20220139400A
KR20220139400A KR1020227032576A KR20227032576A KR20220139400A KR 20220139400 A KR20220139400 A KR 20220139400A KR 1020227032576 A KR1020227032576 A KR 1020227032576A KR 20227032576 A KR20227032576 A KR 20227032576A KR 20220139400 A KR20220139400 A KR 20220139400A
Authority
KR
South Korea
Prior art keywords
audio signal
sample rate
signal
khz
voice
Prior art date
Application number
KR1020227032576A
Other languages
English (en)
Other versions
KR102493866B1 (ko
Inventor
존 폴 레소
Original Assignee
시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시러스 로직 인터내셔널 세미컨덕터 리미티드 filed Critical 시러스 로직 인터내셔널 세미컨덕터 리미티드
Publication of KR20220139400A publication Critical patent/KR20220139400A/ko
Application granted granted Critical
Publication of KR102493866B1 publication Critical patent/KR102493866B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/82Protecting input, output or interconnection devices
    • G06F21/83Protecting input, output or interconnection devices input devices, e.g. keyboards, mice or controllers thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

오디오 시스템은 제어 가능한 샘플링 레이트를 구비한 아날로그-디지털 컨버터를 갖는 디지털 마이크로폰로부터 오디오 신호를 수신한다. 사전 결정된 트리거 구절이 데시메이션된 오디오 신호에서 검출되지 않는다는 결정에 응답하여, 오디오 신호가 제1 샘플 레이트를 갖도록, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트가 제어된다. 사전 결정된 트리거 구절이 데시메이션된 신호에서 검출되었다는 결정에 응답하여, 오디오 신호가 제1 샘플 레이트보다 높은 제2 샘플 레이트를 갖도록, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트가 제어되고, 오디오 신호는 수신된 신호가 실제 음성 또는 재생된 음성을 포함하는지의 여부를 결정하도록 스푸핑 검출 회로에 적용된다.

Description

디지털 마이크로폰을 가진 오디오 시스템
본 명세서에 설명된 실시형태는 디지털 마이크로폰을 포함하는 오디오 시스템을 제어하기 위한 방법 및 디바이스에 관한 것이다.
많은 디바이스는 주변 소리를 검출하는데 사용될 수 있는 마이크로폰을 포함한다. 특히, 많은 디바이스는 오디오 트랜스듀서에 의해 생성된 신호가 디지털 출력 오디오 신호를 형성하기 위해 샘플링되는 디지털 마이크로폰을 포함한다.
마이크로폰에 의해 생성된 오디오 신호는 다양한 방식으로 사용될 수 있다. 예를 들어, 음성(speech)을 나타내는 오디오 신호는 음성 인식 시스템에 대한 입력으로서 사용되어, 사용자가 구두 명령(spoken command)을 사용하여 디바이스 또는 시스템을 제어하게 할 수 있다. 음성 인식 시스템과 함께 화자 인식 시스템을 사용하는 것은 일반적이다. 화자 인식 시스템은 말하는 사람의 신원을 검증하도록 사용될 수 있으며, 이러한 것은 음성 인식 시스템의 동작을 제어하도록 사용될 수 있다.
이에 대한 예로서, 구두 명령은 화자의 개인적인 취향과 관련될 수 있다. 예를 들어, 구두 명령은 "내가 좋아하는 음악 재생"일 수 있으며, 이러한 경우에, 어떤 음악이 재생되어야 하는지를 결정하기 전에 화자의 신원을 알 필요가 있다.
다른 예로서, 구두 명령은 금융 거래와 관련될 수 있다. 예를 들어, 구두 명령은 특정 수취인에게 돈을 이체하는 것을 포함하는 지시일 수 있다. 이러한 경우에, 구두 명령에 따라 행동하기 전에, 해당 명령이 추정된 화자가 말한 것이라는 고도의 확신을 갖는 것이 필요하다.
화자 인식 시스템을 무력화하려는 한 가지 시도는 등록된 사용자의 음성을 녹음하고, 화자 인식 시스템에 의해 검출되도록 그 녹음된 음성을 재생하는 것이다. 그러므로, 검출된 음성이 생음이 아니라 녹음되었는지의 여부를 화자 인식 시스템이 결정할 수 있는 것이 유리하다. 검출된 음성이 녹음되었다는 것을 결정할 수 있으면, 수신된 명령에 대해 행동하지 않기로 결정하는 등의 적절한 조치를 취할 수 있다.
많은 소리 녹음 및 재생 시스템은 예를 들어 초음파 범위에서와 같이 사람이 들을 수 있는 정상적인 범위를 벗어난 주파수를 재생하는데 다소 열악한 것으로 알려져 있다. 그러므로, 실제 음성은 일반적으로 녹음된 음성보다 초음파 범위에서 더 중요한 구성요소를 가지고 있는 것으로 알려져 있다.
본 발명의 제1 양태에 따르면, 오디오 시스템의 동작 방법이 제공되며, 상기 방법은,
제어 가능한 샘플링 레이트를 갖는 아날로그-디지털 컨버터를 포함하는 디지털 마이크로폰으로부터 오디오 신호를 수신하는 단계;
제1 음성이 수신된 오디오 신호에 존재한다는 결정에 응답하여,
오디오 신호가 제1 샘플 레이트를 갖도록 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트를 제어하는 단계; 및
상기 오디오 신호를 스푸핑 검출 회로(spoof detection circuit)에 적용하는 단계; 및
제1 음성이 수신된 오디오 신호에서 종료되었다는 것을 나타내는 신호에 응답하여,
오디오 신호가 제1 샘플 레이트보다 낮은 제2 샘플 레이트를 갖도록 디지털 마이크로폰 내 아날로그-디지털 컨버터의 샘플링 레이트를 제어하는 단계를 포함한다.
본 발명의 제2 양태에 따르면, 오디오 처리 회로가 제공되며, 오디오 처리 회로는,
디지털 마이크로폰으로부터 오디오 신호를 수신하기 위한 입력을 포함하고, 디지털 마이크로폰은 제어 가능한 샘플링 레이트를 갖는 아날로그-디지털 컨버터를 포함하고;
상기 오디오 처리 회로는,
제1 음성이 수신된 오디오 신호에 존재한다는 결정에 응답하여,
오디오 신호가 제1 샘플 레이트를 갖도록 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트를 제어하고; 그리고
상기 오디오 신호를 스푸핑 검출 회로에 적용하고; 그리고
제1 음성이 수신된 오디오 신호에서 종료되었다는 것을 나타내는 신호에 응답하여,
오디오 신호가 제1 샘플 레이트보다 낮은 제2 샘플 레이트를 갖도록 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트를 제어하기 위해 구성된다.
본 발명의 제3 양태에 따르면, 오디오 처리 회로가 제1 양태에 따른 방법을 수행하게 하기 위한 명령을 포함하는 기계 판독 가능 코드를 포함하는, 컴퓨터 프로그램 제품이 제공된다.
본 발명의 보다 양호한 이해를 위해, 그리고 본 발명이 어떻게 실행될 수 있는지 보여주기 위해 이제 첨부된 도면을 참조할 것이다:
도 1은 예시적인 스마트폰을 도시한다.
도 2는 스마트폰의 형태를 예시하는 예시적인 개략도이다.
도 3은 오디오 신호를 분석하는 방법을 예시하는 예시적인 흐름도이고;
도 4는 사용 중인 도 3의 방법을 도시하고;
도 5는 사용 중인 추가 방법을 도시하고;
도 6은 디지털 마이크로폰을 포함하는 오디오 시스템을 예시하는 제1 예시적인 블록도이고; 그리고
도 7은 디지털 마이크로폰을 포함하는 오디오 시스템을 예시하는 제2 예시적인 블록도이다.
아래의 설명은 본 개시내용에 따른 예시적인 실시형태를 제시한다. 추가의 예시적인 실시형태 및 구현예는 당업자에게 자명할 것이다. 또한, 당업자는 다양한 등가 기술이 후술되는 실시형태 대신에 또는 이와 함께 적용될 수 있고, 이러한 모든 등가물이 본 개시내용에 포함되는 것으로 간주되어야 한다는 것을 인식할 것이다.
본 명세서에서 설명된 방법은 광범위한 디바이스 및 시스템에서 구현될 수 있다. 그러나, 일 실시형태의 설명의 용이함을 위해, 스마트폰에서 구현되는 예시적인 예가 설명될 것이다.
도 1은 주변 소리를 검출하기 위한 마이크로폰(12)을 갖는, 시스템이 구현될 수 있는 디바이스, 즉 스마트폰(10)의 일례를 도시한다. 정상적인의 사용에서, 마이크로폰은 물론 스마트폰(10)을 얼굴에 가까이 대고 있는 사용자의 음성을 검출하기 위해 사용된다.
도 2는 스마트폰(10)의 형태를 예시하는 개략도이다.
구체적으로, 도 2는 스마트폰(10)의 다양한 상호 연결된 구성요소를 도시한다. 스마트폰(10)은 실제로 많은 다른 구성요소를 포함할 것이지만, 다음의 설명은 본 개시내용의 실시형태의 이해를 위해 충분하다는 것이 이해될 것이다.
따라서, 도 2는 위에서 언급한 마이크로폰(12)을 도시한다. 특정 실시형태에서, 스마트폰(10)은 다수의 마이크로폰(12, 12a, 12b) 등이 제공된다. 다음에 더욱 상세히 설명되는 바와 같이, 상기 또는 각각의 마이크로폰은 마이크로폰으로부터 디지털 오디오 출력 신호를 생성하기 위하여, 트랜스듀서에 의해 생성된 신호가 아날로그-디지털 컨버터에 적용되는 디지털 마이크로폰일 수 있다.
도 2는 또한 실제로 단일 구성요소 또는 다수의 구성요소로서 제공될 수 있는 메모리(14)를 도시한다. 메모리(14)는 데이터 및 프로그램 명령을 저장하기 위해 제공된다.
도 2는 또한 다시 실제로 단일 구성요소 또는 다수의 구성요소로서 제공될 수 있는 프로세서(16)를 도시한다. 예를 들어, 프로세서(16)의 하나의 구성요소는 스마트폰(10)의 애플리케이션 프로세서일 수 있다.
도 2는 또한 스마트폰(10)이 외부 네트워크와 통신하는 것을 허용하기 위해 제공되는 트랜시버(18)를 도시한다. 예를 들어, 트랜시버(18)는 WiFi 근거리 통신망 또는 셀룰러 네트워크를 통해 인터넷 연결을 확립하기 위한 회로를 포함할 수 있다.
도 2는 또한 필요에 따라 마이크로폰(12)에 의해 검출된 오디오 신호에 대한 동작을 수행하기 위한 오디오 처리 회로망(20)을 도시한다. 예를 들어, 오디오 처리 회로망(20)은 오디오 신호를 필터링하거나 또는 다른 신호 처리 동작을 수행할 수 있다.
이 실시형태에서, 스마트폰(10)에는 음성 생체 인식 기능 및 제어 기능이 제공된다. 그러므로, 스마트폰(10)은 등록된 사용자로부터의 구두 명령에 응답하여 다양한 기능을 수행할 수 있다. 생체 인식 기능은 등록된 사용자로부터의 구두 명령과 다른 사람이 말한 동일한 명령을 구별할 수 있다. 그러므로, 본 개시내용의 특정 실시형태는 스마트폰 또는 일종의 음성 조작성을 갖는 다른 휴대용 전자 디바이스, 예를 들어 구두 명령을 수행하도록 의도된 디바이스에서 음성 생체 인식 기능이 수행되는 태블릿 또는 랩톱 컴퓨터, 게임 콘솔, 홈 제어 시스템, 홈 엔터테인먼트 시스템, 차량 엔터테인먼트 시스템, 가정용 기기 등의 동작과 관련된다. 특정의 다른 실시형태는 음성 생체 인식 기능이 스마트폰 또는 다른 디바이스에서 수행되고, 그런 다음 음성 생체 인식 기능이 화자가 등록된 사용자인 것을 확인할 수 있으면 별도의 디바이스에 명령을 전송하는 시스템과 관련된다.
일부 실시형태에서, 음성 생체 인식 기능이 스마트폰(10) 또는 사용자 가까이에 위치된 다른 디바이스에서 수행되는 동안, 구두 명령은 트랜시버(18)를 사용하여 구두 명령의 의미를 결정하는 원격 음성 인식 시스템으로 전송된다. 예를 들어, 음성 인식 시스템은 클라우드 컴퓨팅 환경에 있는 하나 이상의 원격 서버에 위치될 수 있다. 구두 명령의 의미에 기초한 신호는 그런 다음 스마트폰(10) 또는 다른 로컬 디바이스로 복귀된다.
다른 실시형태에서, 음성 생체 인식 기능의 제1 부분은 스마트폰(10) 또는 사용자 가까이에 위치된 다른 디바이스에서 수행된다. 그런 다음, 다음에 더욱 상세히 설명되는 바와 같이, 신호는 음성 생체 인식 기능의 제2 부분을 수행하는 원격 시스템으로 트랜시버(18)를 사용하여 전송될 수 있다.
음성 생체 인식 시스템을 무력화하려는 한 가지 시도는 등록된 사용자의 음성을 녹음하고, 녹음된 음성을 재생하여 화자 인식 시스템에 의해 검출되도록 하는 것이다. 이는 "재생 발성(replay attack)" 또는 "스푸핑(spoofing)" 발성으로서 지칭된다. 그러므로, 검출된 음성이 생음이 아니라 녹음되었는지의 여부를 화자 인식 시스템이 결정할 수 있는 것이 유리하다. 검출된 음성이 녹음되었다는 것을 결정할 수 있으면, 수신된 명령에 대해 행동하지 않기로 결정하는 것과 같은 적절한 조치를 취할 수 있다.
많은 소리 녹음 및 재생 시스템은 예를 들어 초음파 범위에서와 같이 사람이 들을 수 있는 정상적인 범위를 벗어난 주파수를 재생하는데 다소 열악한 것으로 알려져 있다. 그러므로, 실제 음성은 일반적으로 녹음된 음성보다 초음파 범위에서 더 중요한 성분을 가지고 있는 것으로 알려져 있다.
수신된 오디오 신호가 중요한 초음파 성분을 포함하고 있는지의 여부를 결정할 수 있도록, 수신된 오디오 신호는 상대적으로 넓은 대역폭을 가져야만 한다.
그러므로, 디지털 마이크로폰으로부터 수신되는 오디오 신호에서 초음파 성분을 검출할 수 있도록, 디지털 마이크로폰은 충분히 높은 샘플링 레이트로 동작할 필요가 있으며, 즉 더 높은 주파수 성분이 수신되었다는 것을 보장하도록 충분히 높은 속도로 클록킹될 필요가 있다. 스마트폰의 디지털 마이크로폰은 일반적으로 "항상 켜진" 방식으로 동작하도록 요구되어서, 마이크로폰은 절전 상태로부터 스마트폰의 특정 기능을 활성화하도록 사용되는 트리거 구절(trigger phrase)을 사용자가 말할 때를 검출할 수 있다.
그러나, 소리의 초음파 성분을 검출하는데 요구되는 높은 샘플링 레이트로 "항상 켜진" 방식으로 스마트폰의 디지털 마이크로폰을 동작시키는 것은 허용할 수 없는 상대적으로 높은 전력 소비를 수반하고, 그러므로 이러한 방식으로 재생 발성을 검출하는 것은 매력적이지 않다.
본 명세서에서 설명된 실시형태에 따르면, 디지털 마이크로폰의 클록 레이트를 조정하는 것이 제안된다. 대부분의 시간 동안, 디지털 마이크로폰은 상대적으로 낮은 속도로 클록킹되며, 이는 허용 가능하게 낮은 전력 소비를 가지지만, 검출된 오디오 신호로부터 음성을 복구하기에는 충분하다. 그러나, 트리거 구절을 말한 것으로 결정될 때, 디지털 마이크로폰 클록 레이트는 훨씬 더 빠른 속도로 전환되어, 예를 들어 트리거 구절 다음에 말한 명령을 나타내는 신호일 수 있는 이후에 수신되는 신호에 대해 광대역 스푸핑 방지 검출 프로세스가 수행되는 것을 허용한다.
도 3은 오디오 시스템의 동작 방법을 예시하는 흐름도이다. 방법은 스마트폰(10)의 전용 오디오 처리 칩에 의해 수행될 수 있거나, 또는 하나 이상의 범용 처리 칩에서 수행될 수 있다.
방법은 시스템이 동작하는 동안 계속적으로 수행된다. 그러나, 편의상, 도 3은 단계 60을 수행하는 것에 의해, 즉 디지털 마이크로폰으로부터 오디오 신호를 수신하는 것에 의해 특정 시점에서 시작하는 방법을 도시하고, 디지털 마이크로폰은 제어 가능한 샘플링 레이트를 갖는 아날로그-디지털 컨버터를 포함한다.
이러한 단계 동안, 아날로그-디지털 컨버터의 샘플링 레이트는 표준 샘플링 레이트일 수 있으며, 이는 고도의 신뢰도로 결과적인 디지털 신호에서 음성을 검출할 수 있을 만큼 충분히 높지만, 디바이스의 전력 소비를 허용할 수 없는 정도로 증가시키지 않으면서 디지털 마이크로폰이 항상 켜진 방식으로 이러한 샘플링 레이트로 동작할 수 있을 정도로 충분히 낮게 선택된다.
예를 들어, 표준 샘플링 레이트는 200㎑ 내지 1㎒ 범위일 수 있으며, 전형적인 범위로서 768㎑ 또는 800㎑이다.
단계 62에서, 수신된 오디오 신호에서 제1 음성이 검출되었는지의 여부에 대한 결정이 만들어진다. 방법이 스마트폰(10) 내의 전용 오디오 처리 칩에 의해 수행될 때, 단계 62의 결정은 전용 오디오 처리 칩에서 수행될 수 있거나, 또는 적절한 표시가 전용 오디오 처리 칩으로 전송되는 상태에서 다른 오디오 처리 칩에서 수행될 수 있다.
일부 실시형태에서, 제1 음성은 임의의 음성일 수 있다. 다른 실시형태에서, 제1 음성은 사전 결정된 트리거 구절일 수 있다.
단계 62에서 제1 음성이 수신된 오디오 신호에서 검출되지 않은 것으로 결정되면, 방법은 단계 60으로 복귀하고, 수신된 신호를 모니터링한다. 제1 음성이 수신된 오디오 신호에 존재하는 것으로 단계 62에서 결정되면, 방법은 단계 64로 진행하고, 여기서 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 오디오 신호가 제1 샘플 레이트를 갖도록 제어된다.
제1 샘플링 레이트는 후속적으로 수신되는 신호에 대해 수행되는 위에서 설명한 광대역 스푸핑 방지 검출 프로세스를 수행하는 것이 가능할 정도로 충분히 높게 선택된다.
즉, 제1 샘플링 레이트는 결과적인 디지털 신호에서 초음파 성분을 높은 신뢰도로 검출하는 것이 가능할 만큼 충분히 높게 선택된다. 이러한 더욱 높은 샘플링 레이트가 전력 소비를 증가시킬지라도, 디바이스는 전형적으로 더 높은 샘플링 레이트로 동작하는 시간의 작은 부분만 소비하여서, 디바이스의 전체적인 전력 소비를 허용할 수 없는 정도로 증가시키지 않는다.
예를 들어, 제1 샘플링 레이트는 1㎒ 내지 8㎒ 범위일 수 있으며, 전형적인 범위로서 2.4㎒ 또는 4.8㎒이다.
단계 64에서, 오디오 신호는 스푸핑 검출 회로에 적용되고, 여기에서, 수신된 오디오 신호가 실제 음성을 포함할 가능성이 있는지 또는 녹음 및 재생된 음성을 나타낼 가능성이 있는지의 여부를 결정하기 위해, 오디오 신호의 초음파 성분이 검사된다.
한편, 단계 68에서, 제1 음성이 수신된 오디오 신호에서 종료되었음을 나타내는 신호가 발생되었는지 또는 수신되었는지의 여부가 결정된다. 그렇지 않은 경우, 프로세스는 단계 64로 복귀한다. 즉, 아날로그-디지털 컨버터의 샘플링 레이트는 제1 샘플링 레이트로 유지된다.
그러나, 단계 68에서, 제1 음성이 수신된 오디오 신호에서 종료되었다는 것을 나타내는 신호가 생성되거나 수신되었다고 결정되면, 프로세스는 단계 70으로 진행하고, 여기서 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 오디오 신호가 제1 샘플 레이트보다 낮은 제2 샘플 레이트를 갖도록 제어된다. 이러한 제2 샘플링 레이트는 200㎑ 내지 1㎒ 범위인 위에서 언급된 표준 샘플링 레이트일 수 있으며, 전형적인 값으로서 768㎑ 또는 800㎑이다.
아울러, 도 3에 도시된 방법의 특정 실시형태에서, 수신된 오디오 신호는 데시메이션된 오디오 신호를 생성하기 위해 제어 가능한 데시메이터(decimator)에 적용된다. 제1 음성이 오디오 신호에서 검출되었다는 결정에 응답하여, 데시메이터는 데시메이션된 오디오 신호가 사전 결정된 샘플 레이트를 갖도록 제어된다. 제1 음성이 종료되었다는 결정에 응답하여, 데시메이터는 데시메이션된 오디오 신호가 동일한 사전 결정된 샘플 레이트를 갖도록 제어된다.
그러므로, 높은 샘플 레이트 신호가 스푸핑 검출 블록에 의한 사용을 위해 생성되는지의 여부에 관계없이, 일정한 샘플 레이트 오디오 신호가 또한 생성되며, 이러한 오디오 신호는 그런 다음 임의의 적절한 목적을 위해, 예를 들어 화자 검출 및/또는 또는 음성 검출 프로세스, 및/또는 디바이스가 전화를 걸기 위해 사용될 때 전화 네트워크를 통한 전송을 위해 사용될 수 있다.
이러한 사전 결정된 샘플 레이트는 10㎑ 내지 60㎑의 범위일 수 있으며, 전형적인 값으로서 16㎑ 또는 24㎑이다.
도 4는 일 실시형태에서 이 시스템의 동작을 도시한다.
구체적으로, 도 4의 상단 라인(80)은 사용자가 말한 단어를 나타내며; 제2 라인(82)은 트리거 구절 검출 블록의 출력을 나타내며; 제3 라인(84)은 디지털 마이크로폰의 샘플링 레이트를 나타내고; 제4 라인(86)은 제어 가능한 데시메이터의 동작을 나타낸다.
따라서, 사용자가 시간(t41)에서 말하기 시작할 때, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 제어되어서, 디지털 마이크로폰의 출력 오디오 신호는 도 3을 참조하여 설명된 제2 샘플링 레이트를 가진 1-비트 신호가 된다. 이러한 예시된 실시형태에서, 제2 샘플링 레이트는 800㎑이다.
아울러, 오디오 신호는 50의 데시메이션 계수로 동작하는 제어 가능한 데시메이터에 적용되어서, 데시메이션된 오디오 신호는 16㎑의 샘플 레이트를 갖는 16-비트 또는 24-비트 신호이다.
시간(t42)에서 사용자가 전화기의 특정 기능을 활성화하는데 사용되는 사전 결정된 트리거 구절(이러한 경우에, "안녕 전화")를 말한 것으로 결정될 때, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 디지털 마이크로폰의 출력 오디오 신호가 도 3을 참조하여 설명된 제1 샘플링 레이트를 갖는 1-비트 신호이도록 제어된다. 이러한 예시된 실시형태에서, 제1 샘플링 레이트는 4.8㎒이다.
이러한 것은, 사용자가 사전 결정된 트리거 구절(이러한 경우에, "나에게 피자를 주문") 다음에 오는 명령을 말할 때, 관련 오디오 신호의 고대역폭 버전이 이용 가능하고, 예를 들어 수신된 오디오 신호의 초음파 성분을 검사하는 것에 의해, 그러나 적어도 제2 샘플링 레이트를 가진 신호의 버전으로부터 상세히 검사되지 않을 수 있는 주파수의 수신된 오디오 신호의 성분을 검사하는 것에 의해 검출된 음성이 재생 발성의 결과인지의 여부를 검출하는 것과 관련된 임의의 프로세스를 수행하도록 이러한 것이 사용될 수 있다는 것을 의미한다.
아울러, 제어 가능한 데시메이터는 300의 데시메이션 계수로 동작하기 시작하도록, 그리고 데시메이션된 오디오 신호가 16㎑의 샘플 레이트를 가진 16-비트 또는 24-비트 신호를 유지하도록 제어된다.
시간(t43)에서 사용자가 말을 마친 것으로 결정될 때, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 디지털 마이크로폰의 출력 오디오 신호가 이러한 도시된 실시형태에서 800㎑인 도 3을 참조하여 설명된 제2 샘플링 레이트로 되돌아가도록 제어된다.
아울러, 이전과 같이, 제어 가능한 데시메이터는 50의 데시메이션 계수로 동작하도록 제어되어서, 데시메이션된 오디오 신호는 16㎑의 샘플 레이트를 가진 16-비트 또는 24-비트 신호를 유지한다.
추가적인 동작 모드에서, 일부 실시형태에서, 마이크로폰은 전력 소비를 더욱 감소시키기 위해 가청 음성이 없는 동안 제2 샘플링 레이트보다 한층 느린 레이트로 클록킹될 수 있다.
이들 실시형태에서, 도 3의 방법은 데시메이션된 오디오 신호에서 임의의 음성을 검출하려고 시도하는 단계를 더 포함한다. 데시메이션된 오디오 신호에서 어떠한 음성도 검출되지 않을 때, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 오디오 신호가 제2 샘플 레이트보다 낮은 제3 샘플 레이트를 갖도록 제어된다.
제3 샘플링 레이트는 높은 신뢰도로 결과적인 디지털 신호에서 음성의 존재를 검출하는 것이 가능할 만큼 충분히 높도록 선택되지만, 디바이스의 전력 소비를 허용할 수 없는 정도로 증가시키지 않으면서 항상 켜진 방식으로, 디지털 마이크로폰이 이러한 샘플링 레이트에서 동작할 수 있을 만큼 충분히 낮게 선택된다.
예를 들어, 제3 샘플 레이트는 50㎑ 내지 400㎑의 범위일 수 있다.
이전과 같이, 오디오 신호가 제3 샘플 레이트를 갖도록 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트가 제어될 때, 제어 가능한 데시메이터는 데시메이션된 오디오 신호가 여전히 사전 결정된 샘플 레이트를 갖도록 제어된다.
이러한 경우에, 음서이 데시메이션된 오디오 신호에서 검출되지 않을 때, 오디오 신호는 제어 가능한 데시메이터에 적용되기 전에 필터링될 수 있다.
도 5는 시스템의 이러한 실시형태의 동작을 도시한다.
구체적으로, 도 5의 상단 라인(90)은 사용자가 말한 단어를 나타내고; 제2 라인(92)은 활동 검출 블록의 출력을 나타내고; 제3 라인(94)은 트리거 구절 검출 블록의 출력을 나타내고; 제4 라인(96)은 디지털 마이크로폰의 샘플링 레이트를 나타내고; 제5 라인(98)은 제어 가능한 데시메이터의 동작을 나타낸다.
이러한 경우에, 사용자가 시간 t51에서 말하기 시작할 때까지, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 디지털 마이크로폰의 출력 오디오 신호가 전술한 제3 샘플링 레이트를 갖도록 제어된다. 이러한 예시된 실시형태에서, 제3 샘플링 레이트는 160㎑이다.
아울러, 오디오 신호는 10의 데시메이션 계수로 동작하는 제어 가능한 데시메이터에 적용되어서, 데시메이션된 오디오 신호는 16㎑의 샘플 레이트를 갖는 16-비트 또는 24-비트 신호이다.
그런 다음, 사용자의 음성 시작이 시간 t51에서 검출될 때, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 디지털 마이크로폰의 출력 오디오 신호가 도 3을 참조하여 설명된 제2 샘플링 레이트를 갖도록 제어된다. 이러한 예시된 실시형태에서, 제2 샘플링 레이트는 800㎑이다.
아울러, 오디오 신호가 적용되는 제어 가능한 데시메이터는 50의 데시메이션 계수로 동작하도록 제어되어서, 데시메이션된 오디오 신호는 16㎑의 샘플 레이트를 갖는 16-비트 또는 24-비트 신호를 유지한다.
시간(t52)에서, 사용자가 전화기의 특정 기능을 활성화하는데 사용되는 사전 결정된 트리거 구절(이러한 경우에, "안녕 전화")를 말한 것으로 결정될 때, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 디지털 마이크로폰의 출력 오디오 신호가 도 3을 참조하여 설명된 제1 샘플링 레이트를 갖도록 제어된다. 이러한 예시된 실시형태에서, 제1 샘플링 레이트는 4.8㎒이다.
이러한 것은, 사용자가 사전 결정된 트리거 구절(이러한 경우에, "나에게 피자를 주문") 다음에 오는 명령을 말할 때, 관련 오디오 신호의 고대역폭 버전이 이용 가능하고, 예를 들어 수신된 오디오 신호의 초음파 성분을 검사하는 것에 의해, 그러나 적어도제2 샘플링 레이트를 가진 신호의 버전으로부터 상세히 검사되지 않을 수 있는 주파수의 수신된 오디오 신호의 성분을 검사하는 것에 의해 검출된 음성이 재생 발성의 결과인지의 여부를 검출하는 것과 관련된 임의의 프로세스를 수행하도록 이러한 것이 사용될 수 있다는 것을 의미한다.
아울러, 제어 가능한 데시메이터는, 300의 데시메이션 계수로 동작을 시작하도록, 그리고 데시메이션된 오디오 신호가 16㎑의 샘플 레이트를 가진 16-비트 또는 24-비트 신호를 유지하도록 제어된다.
시간(t53)에서 사용자가 말을 마친 것으로 결정될 때, 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트는 디지털 마이크로폰의 출력 오디오 신호가 도 3을 참조하여 설명된 제2 샘플링 레이트 또는 제3 샘플링 레이트로 되돌아가도록 제어된다.
아울러, 이전과 같이, 제어 가능한 데시메이터는 데시메이션된 오디오 신호가 16㎑의 샘플 레이트를 갖는 16-비트 또는 24-비트 신호를 유지하도록 제어된다.
도 6은 오디오 처리 시스템의 기능 블록을 도시하는 블록도이다.
구체적으로, 도 6은 디지털 마이크로폰 회로(122), 음성 생체 인식 시스템에서 재생 발성을 검출하는 것과 관련된 조치를 수행하기 위한 별도의 회로(124), 및 프로세서(126)를 포함하는 시스템(120)을 도시한다. 시스템(120)이 스마트폰, 태블릿 컴퓨터, 스마트 스피커 등의 일부를 형성할 때, 프로세서(126)는 예를 들어 애플리케이션 프로세서 또는 코덱일 수 있다.
도 2에 도시된 시스템에서, 디지털 마이크로폰 회로(122)는 도 2에 도시된 마이크로폰(12, 12a, 12b) 중 하나에 대응할 수 있고; 프로세서(126)는 프로세서(16)(예를 들어, 스마트폰(10)의 애플리케이션 프로세서) 또는 오디오 처리 회로망(20)에 대응할 수 있고; 재생 발성 검출 회로망 회로(124)는 프로세서(16) 또는 오디오 처리 회로망(20)의 일부로서 제공될 수 있거나, 또는 마이크로폰(12, 12a, 12b) 중 관련된 하나가 연결되는 별도의 회로로서 제공될 수 있다.
디지털 마이크로폰 회로(122)는 마이크로폰 트랜스듀서(130), 적절한 전치 증폭기(132), 및 아날로그-디지털 컨버터(134)를 포함한다. 아날로그-디지털 컨버터(134)의 샘플링 레이트, 그러므로 출력(136)에서 마이크로폰 회로(122)로부터 출력된 디지털 신호의 샘플 레이트는 아래에서 더 상세히 논의되는 바와 같이 제어 가능하다.
위에서 언급된 바와 같이, 아날로그-디지털 컨버터(134)의 샘플링 레이트의 제어는 예를 들어 회로(124)와 디지털 마이크로폰 회로(122) 사이의 인터페이스(138)가 2-핀 인터페이스일 때 회로(124)로부터 디지털 마이크로폰 회로(122)로 요구되는 클록 신호를 전송하는 것에 의해 달성될 수 있다. 대안적으로, 인터페이스(138)가 더욱 상세한 제어를 허용하는 인터페이스, 예를 들어 MIPI Soundwire™ 인터페이스일 때, 의도된 샘플링 레이트를 나타내는 제어 신호는 회로(124)로부터 디지털 마이크로폰 회로(122)로 전송될 수 있다.
회로(124)는 디지털 마이크로폰 회로(122)로부터 출력되는 디지털 신호를 수신한다.
디지털 마이크로폰 회로(122)로부터 회로(124)에 의해 수신되는 디지털 신호는 검출될 신호의 오버샘플링을 초래하는 샘플 레이트를 갖는 1-비트 디지털 신호일 수 있다. 예를 들어, 최대 관심 주파수가 예를 들어 8㎑ 내지 20㎑의 영역에 있을 수 있는 오디오 처리 디바이스의 경우에, 수신된 신호의 샘플 레이트는 Nyquist 샘플링 레이트보다 훨씬 더 높을 수 있으며, 이는 관심 상위 주파수의 2배이다.
수신된 신호는 가변 데시메이터 레이트(M)를 갖는 제1 데시메이터(142)에 적용된다. 제1 데시메이터(142)에 의해 적용되는 데시메이터 레이트는 디지털 마이크로폰 회로(122)로부터 수신되는 디지털 신호의 샘플 레이트에 관계없이, 출력 라인(144) 상의 회로(124)로부터 출력되는 신호가 일관된 샘플 레이트를 갖도록 제어된다. 이러한 샘플 레이트는 출력 오디오 신호가 임의의 원하는 오디오 프로세스에서 사용될 수 있도록 선택된다. 예를 들어, 수신된 1-비트 디지털 신호는 오디오 신호 처리 목적에 적합할 수 있는 16㎑의 샘플 레이트를 갖는 16-비트, 24-비트 또는 32-비트 디지털 신호로 변환될 수 있다.
이러한 예시된 실시형태에서, 데시메이터(142)로부터 출력된 신호는 프로세서(126)로 전달된다. 구체적으로, 제1 예에서, 데시메이터(142)로부터 출력되는 신호는 데시메이션된 신호에서 음성의 존재를 검출하기 위해 종래의 기술을 사용하는 음성 활동 검출(VAD) 블록(146)으로 전달된다.
음성 활동 검출(VAD) 블록(146)은 데시메이션된 신호에서 음성의 존재를 검출할 때 데시메이터(142)로부터 출력된 신호를 수신하는 음성 트리거 검출 블록(148)을 활성화하기 위해 신호를 전송한다.
그런 다음, 음성 트리거 검출 블록(148)은 데시메이션된 신호에서 사전 결정된 음성 트리거를 나타내는 신호의 존재를 검출하기 위해 종래의 기술을 사용한다. 비록 도 6이 음성 활동 검출 블록(146) 및 음성 트리거 검출 블록(148)을 별개의 블록으로서 도시할지라도, 음성 활동 검출은 음성 트리거 검출 블록(148)의 기능으로서 포함될 수 있다.
비록 음성 활동 검출 블록(146) 및 음성 트리거 검출 블록(148)이 프로세서(126)의 기능인 실시형태를 도 6이 도시할지라도, 다른 실시형태에서, 음성 활동 검출 블록(146) 및/또는 음성 트리거 검출 블록(148)은 회로(124)에 제공될 수 있다.
또한 일부 실시형태에서, 디지털 마이크로폰 회로(122)로부터 회로(124)에 의해 수신되는 1-비트 디지털 신호는 회로(124)의 출력으로서 또한 제공되어, 1-비트 디지털 신호를 그 입력으로서 수신하도록 구성된 다운스트림 디바이스와 함께 회로(124)가 사용되는 것을 허용할 수 있다.
데시메이터(142)로부터 출력된 신호는 화자 인식 블록(150) 및/또는 음성 인식 블록(152)에 또한 공급될 수 있다. 화자 인식 블록(150) 및 음성 인식 블록(152)은 회로(124)에 제공될 수 있다. 그러나, 이러한 예시된 실시형태에서, 화자 인식 블록(150) 및 음성 인식 블록(152)은 처리 회로망(126)에서 회로(124)와 별도로 제공된다.
이러한 예시된 실시형태에서, 화자 인식 블록(152)은 음성 트리거 검출 블록(148)으로부터의 신호에 의해 제어된다. 그러므로, 사전 결정된 트리거 구절을 말하였다고 결정될 때, 화자 인식 블록(150)은 활성화된다.
화자 인식 블록(150)은 수신된 신호에 포함된 음성이 식별된 등록 사용자가 말하였는지의 여부를 결정하도록 구성될 수 있다. 예를 들어, 화자 인식 블록(150)은 수신된 신호에 포함된 음성이 등록 프로세스 동안 해당 사용자에 대해 생성된 모델과 충분히 유사한 특징부를 갖는지의 여부를 결정하도록 구성될 수 있다.
음성 인식 블록(152)은 수신된 신호에서 음성의 내용, 즉 음성의 의미를 식별하도록 구성될 수 있다. 일부 실시형태에서, 음성 인식 블록(152)은 화자 인식 블록(150)이 음성이 식별된 등록 사용자가 말하였다고 결정한 경우에만 활성화될 수 있다. 다른 실시형태에서, 또는 다른 사용 예에서, 식별된 음성 내용에 응답하여 수행되는 조치는 화자 인식 블록(150)에 의해 결정된 바와 같이 화자의 신원에 따라 달라질 것이다.
아울러, 예시된 실시형태에서, 프로세서(126)는, 클록 신호 자체를 생성할 수 있거나 또는 다른 회로로부터 클록 신호를 수신할 수 있는 클록 생성기 회로(154)를 포함한다. 클록 생성기 회로(154)에 의해 생성된 클록 신호는 회로(124), 특히 주파수 변환 회로(156)로 전달된다. 이 실시형태에서, 주파수 변환 회로(156)의 출력은 아날로그-디지털 컨버터(134)의 샘플링 레이트 클록으로서 작용하도록 디지털 마이크로폰 회로(122)에 공급된다. 주파수 변환 회로(156)의 동작은 다움에 더욱 상세히 설명된다.
그러므로, 마이크로폰에 의해 검출된 신호가 화자 인식 프로세스에서 사용될 수 있는 시스템이 설명된다. 화자 인식 프로세스는 등록된 사용자의 음성이 녹음되고 재생되는 재생 발성에 취약한 것으로 알려져 있다. 이러한 발성의 경우에, 화자 인식 프로세스는 재생된 음성이 등록된 사용자의 음성인 것으로 결정할 수 있으며, 그러므로 화자에 의해 제공된 어떠한 명령에도 동작할 수 있다.
이러한 것은 음성 트리거, 즉 시스템을 활성화하기 위해 사용자가 말해야만 하는 사전 결정된 깨우기 구절의 사용에 의지하는 시스템의 경우에 특히 그렇다. 이러한 시스템에서, 등록된 사용자는 아마도 사전 결정된 깨우기 구절을 꽤 자주 말할 것이고, 등록된 사용자가 말한 그 구절을 제3자가 녹음할 더 많은 기회를 제공할 것이다. 그런 다음, 발성자(attacker)는 시스템을 활성화하고 권한을 부여받기 위해 사용자가 말한 사전 결정된 깨우기 구절을 재생할 수 있으며, 발성자는 자신의 이익을 위해 명령을 말할 수 있으며, 화자 인식 시스템이 여전히 등록된 사용자의 음성으로서 전체를 인식할 가능성이 높다.
이러한 종류에 대해 재생 발성을 옹호하기 위해, 수신된 음성이 실제 음성인지 또는 음성이 녹음 및 재생되었는지의 여부를 인식할 수 있는 것이 유용하다. 위에서 언급한 바와 같이, 널리 사용되는 장비를 사용하여 음성을 녹음하고 재생하는 프로세스는 음성의 고주파 성분이 손실되게 한다. 특히, 오디오 주파수 범위의 상위 부분 및/또는 초음파 범위에서의 주파수가 손실될 수 있다.
마찬가지로, 도 6에 도시된 종류의 시스템과 관련된 한 가지 문제는 시스템이 우발적으로 활성화될 수 있다는 것이다. 예를 들어, 사용자의 구두 명령에 응답하도록 의도된 스마트 스피커 디바이스의 경우에, 디바이스는 스마트 스피커 디바이스와 같은 방에 있는 라디오나 텔레비전으로부터의 음성에 의해 활성화될 수 있다. 이러한 음성이 등록된 사용자의 음성이 아닌 것을 화자 인식 기능이 식별해야 할지라도, 화자 인식 기능의 활성화는 디바이스의 전력 소모를 증가시킨다. 그러므로, 이러한 시스템에서, 음성이 실제 음성인지 재생된 음성인지를 인식하고, 실제 음성이 검출된 경우에만 화자 인식 프로세스를 활성화할 수 있는 것이 유리하다. 다시 말하지만, 라디오나 텔레비전을 통해 재생되는 음성은 전형적으로 실제 음성의 예상되는 고주파수 성분이 부족할 것이라는 것과 관련된다.
도 6에 도시된 실시형태에서, 수신된 음성 신호는 스푸핑 방지 블록(160)으로 전달되고, 스푸핑 방지 블록은 수신된 음성이 실제 음성인지 또는 녹음 및 재생된 음성인지를 결정하려고 시도한다. 그런 다음, 화자 인식 블록(150)은 스푸핑 방지 블록(160)으로부터 제어 입력을 수신한다. 따라서, 도 6에 도시된 실시형태에서, 화자 인식 블록(150)은 스푸핑 방지 블록(160)이 수신된 신호가 실제 음성을 나타낼 가능성이 있다고 결정한 경우에만 수신된 신호에 포함된 음성을 식별된 등록 사용자가 말하였는지의 여부를 결정하도록 구성될 수 있다. 대안으로서, 화자 인식 블록(150) 및 스푸핑 방지 블록(160)으로부터의 출력은 수신된 신호에서의 음성이 등록된 사용자의 실제 음성으로서 간주되어야 하는지의 여부를 나타내는 단일 출력을 생성하도록 조합될 수 있다.
초기 조건에서, 아날로그-디지털 컨버터(134)의 샘플링 레이트는 예를 들어 800㎑의 영역에 있을 수 있는 도 3, 도 4 및 도 5를 참조하여 설명된 표준 샘플링 레이트가 되도록 제어될 수 있다.
하나의 예시적인 예에서, 클록 생성기(154)는 768㎑의 주파수를 갖는 클록 신호를 생성하고, 이를 주파수 변환기(156)에 전달한다. 이러한 모드에서, 샘플 레이트 변환기는 투과성이고, 768㎑ 클록 신호를 디지털 마이크로폰 회로(122)에 전달한다.
이러한 768㎑ 클록 신호는 아날로그-디지털 컨버터(134)가 768㎑의 샘플 레이트를 갖는 1-비트 출력 신호를 생성한다는 것을 의미한다.
768㎑의 샘플 레이트를 갖는 1-비트 신호는 데시메이터(142)로 전달되고, 여기에서, 16㎑(즉, 768㎑의 1/48인)의 샘플 레이트를 갖는 24-비트(또는 16-비트 또는 32-비트) 신호로 변환되고, 이러한 신호는 음성 활동 검출, 트리거 구절 검출, 화자 인식 및/또는 음성 인식의 목적을 위해 사용되는 신호이다. 이러한 것이 16㎑의 샘플 레이트를 갖기 때문에, 이러한 신호는 8㎑의 유효 대역폭을 갖는다.
스푸핑 검출의 프로세스는 음성 활동 검출 블록(146)이 수신된 신호에서 음성을 검출하고 적절한 출력 신호를 생성할 때, 또는 음성 트리거 검출 블록(148)이 수신된 신호에서 트리거 구절을 검출하고 적절한 출력 신호를 생성할 때 트리거된다.
이러한 경우에, 클록 생성기(154)는 여전히 768㎑의 주파수를 갖는 클록 신호를 생성하고, 이를 주파수 변환기(156)에 전달한다. 이 모드에서, 음성 활동 검출 블록(146) 또는 음성 트리거 검출 블록(148)으로부터의 신호에 응답하여, 샘플 레이트 변환기는 클록 신호의 주파수를 증가시키도록 작용하고, 증가된 주파수 클록 신호를 디지털 마이크로폰 회로(122)에 전달한다.
하나의 예시적인 예에서, 주파수 변환기(156)는 클록 신호의 주파수를 6배만큼, 즉 4.608㎒로 증가시킨다.
이러한 4.608㎒ 클록 신호는 아날로그-디지털 컨버터(134)가 4.608㎒의 샘플 레이트를 갖는 1-비트 출력 신호를 생성한다는 것을 의미한다.
이 모드에서, 데시메이터(142)는 또한 음성 활동 검출 블록(146) 또는 음성 트리거 검출 블록(148)으로부터, 더 높은 샘플 레이트를 갖는 신호를 수신할 것임을 나타내는 제어 신호를 수신한다. 회로(124)가 모든 모드에서 16㎑ 신호를 생성하는 것이 유용하기 때문에, 이러한 것은 입력 신호가 더 높은 샘플 레이트를 가질 때 데시메이터(142)의 데시메이션 계수를 증가시키는 것을 요구한다. 주파수 변환기(156)가 클록 신호의 주파수를 6배만큼 증가시키는 실시형태에서, 데시메이션 계수가 또한 6배, 즉 288로 증가해야만 한다.
그러므로, 이 모드에서, 4.608㎒의 샘플 레이트를 갖는 1-비트 신호는 데시메이터(142)로 전달되고, 여기에서 16㎑의 샘플 레이트를 갖는 24-비트(또는 16-비트 또는 32-비트) 신호로 변환되며, 이러한 신호는 음성 활동 검출, 트리거 구절 검출, 화자 인식 및/또는 음성 인식의 목적을 위해 사용되는 신호이다.
이 모드에서, 제2 데시메이터(162)는 또한 음성 활동 검출 블록(146) 또는 음성 트리거 검출 블록(148)으로부터, 활성화되어야 한다는 것을 나타내는 제어 신호를 수신한다.
그러므로, 이 모드에서, 4.608㎒의 샘플 레이트를 갖는 1-비트 신호는 제2 데시메이터(162)로 전달되고, 여기에서 48㎑의 샘플 레이트를 갖는 24-비트(또는 16-비트 또는 32-비트) 신호로 변환된다. 그러므로, 이 신호는 24㎑의 유효 대역폭을 갖는다. 제2 데시메이터(162)의 출력 신호는 스푸핑 방지 블록(160)으로 전달된다.
도 6은 제1 데시메이터(142)와 제2 데시메이터(162)를 별개의 블록으로 도시하지만, 신호가 스푸핑 검출을 위해 사용되는 것을 허용하여 제2 데시메이터(162)를 대체하도록 샘플 레이트를 (예를 들어, 48㎑로) 감소시키기 위해 데시메이터(142)가 제1 부분적 데시메이션을 수행하고, 그런 다음 신호가 출력되기 전에 샘플 레이트를 (예를 들어, 16㎑로) 감소시키기 위해 제2 부분적 데시메이션을 수행할 수 있다.
더 높은 샘플 레이트 신호는 광대역 스푸핑이 수행되는 것을 허용한다. 보다 구체적으로, 스푸핑 방지 블록(150)은 수신된 신호의 특징부를 검사하고, 더욱 더 구체적으로 스푸핑 방지 블록(150)은 초음파 주파수 범위, 또는 적어도 일반적으로 제1 샘플 레이트를 갖는 신호에서 검출할 수 없는 더 높은 주파수의 수신된 신호의 특징부를 검사한다. 사용될 수 있는 기술의 예는 (국제 특허 출원 번호 PCT/GB2019/052143에 기술된 바와 같이) 그 당시 음성의 음향 클래스에 기초하여, 수신된 음성의 주파수 스펙트럼을 예상 주파수 스펙트럼과 비교하고; (미국 특허 가출원 제62/938,377호에 기술된 바와 같이)초음파 주파수 대역을 포함할 수 있는 상이한 주파수 대역에서 음성 신호의 성분의 각각의 변조 정도를 비교한다.
그러므로, 스푸핑 방지 블록(150)의 동작은 수신된 신호가 실제 음성을 나타낼 가능성이 있는지 또는 소리 재생 시스템을 통해 재생된 녹음된 음성을 수신된 신호가 나타낼 가능성이 있는지의 여부를 결정하는 것이다.
음성 활동 검출 블록(146) 또는 음성 트리거 검출 블록(148)으로부터 수신된 신호가 음성 또는 트리거 구절이 종료되었다는 것을 나타낼 때, 주파수 변환기 블록(156)은 아날로그-디지털 컨버터(134)에 대한 샘플링 클록으로서 작용하도록 마이크로폰 회로(122)에 전송된 클록 신호가 위에서 논의된 표준 주파수(즉, 예를 들어, 768㎑)로 되돌아가도록 제어될 수 있다.
일 실시형태에서, 주파수 변환기 블록(156)은 제3 샘플 레이트를 갖는 신호를 생성하기 위해 아날로그-디지털 컨버터(134)에 의해 사용될 수 있는 제3 주파수를 갖는 클록 신호를 생성할 수 있도록 구성된다.
예를 들어, 이 실시형태에서, 주파수 변환기 블록(156)은 제3 주파수를 갖는 클록 신호를 생성하도록, 그러므로 어떠한 음성도 데시메이션된 신호에서 존재하지 않을 때, 아날로그-디지털 컨버터(134)가 제3 샘플 레이트를 갖는 신호를 생성하도록 구성된다.
트리거 구절 동안, 주파수 변환기 블록(156)은 위에서 언급된 더 높은 주파수를 갖는 클록 신호를 생성하고, 따라서 아날로그-디지털 컨버터(134)는 더 높은 샘플 레이트(예를 들어, 4.608㎒)를 갖는 신호를 생성한다.
데시메이션된 신호에 다른 음성, 즉 트리거 구절이 아닌 음성이 있을 때, 주파수 변환기 블록(156)은 위에서 언급된 표준 주파수를 사용하여 클록 신호를 생성하고, 그러므로 아날로그-디지털 컨버터(134)는 표준 샘플 레이트(예를 들어, 768㎑)를 갖는 신호를 생성한다.
이러한 실시형태에서, 제3 샘플 레이트는 예를 들어 160㎑일 수 있다. 160㎑의 샘플 레이트를 갖는 1-비트 신호는 데시메이터(142)로 전달되고, 여기에서, 16㎑(즉, 160㎑의 1/10)의 샘플 레이트를 갖는 24-비트(또는 16-비트 또는 32-비트) 신호로 변환된다. 이러한 신호는 화자 인식 또는 음성 인식과 같은 프로세스에는 적합하지 않을 수 있지만, 음성 활동 검출 및 트리거 구절 검출의 목적을 위해 사용될 수 있다.
수신된 신호의 샘플 레이트가 이렇게 낮을 때, 데시메이터(142)에서의 대역 통과 필터는 아날로그-디지털 컨버터(134)의 동작으로부터 발생하는 시그마-델타 잡음을 제거하기 위해 활성화될 수 있다.
도 6은 프로세서(126)가 코덱일 수 있는 실시형태를 도시하고, 코덱은 신호를 애플리케이션 프로세서에 전달하기 전에 신호를 처리하도록 구성된다.
도 7은 재생 발성 검출 회로가 본질적으로 마이크로폰 회로(122)와 애플리케이션 프로세서(126) 사이에서 인라인이고 애플리케이션 프로세서(126)에 대해 투과성인 대안적인 실시형태를 도시한다. 즉, 애플리케이션 프로세서는 재생 발성 검출 회로가 거기에 없는 것처럼 거동할 수 있다.
도 7에서, 재생 발성 검출 회로(224)는 도 6에 도시된 재생 발성 검출 회로(124)와 매우 유사하고, 동일한 도면 부호를 갖는 특징부는 동일한 방식으로 거동한다.
그러므로, 주파수 변환기 회로(156)는 예를 들어 768㎑에서 클록 생성기(154)로부터 클록 신호를 수신하고, 동일한 주파수 또는 더 높은 주파수, 예를 들어 4.608㎒의 클록 출력을 생성하도록 제어될 수 있다.
주파수 변환기 회로(156)에 의해 공급되는 클록 주파수에 의존하는 샘플 레이트를 갖는, 디지털 마이크로폰(122)으로부터 수신된 신호는 제1 데시메이터(242)로 전달된다.
주파수 변환기 회로(156)가 더 높은 주파수의 클록 신호를 공급할 때, 제1 데시메이터(242)는 마이크로폰 블록(122)으로부터 수신된 4.608㎒ 1-비트 신호를, 스푸핑 방지 블록(160)으로 전달되는 96㎑ 24-비트 신호로 변환한다.
제1 데시메이터(242)의 출력은 또한 96㎑ 24-비트 신호를 16㎑ 24-비트 신호로 변환하는 제2 데시메이터(244)로 전달된다. 제2 데시메이터(244)의 출력은 시그마-델타 변조기(246)로 전달되고, 시그마-델타 변조기는 애플리케이션 프로세서(126)로 전송하기 위해 16㎑ 24-비트 신호를 1-비트 768㎑ 신호로 변환한다.
클록과 데이터가 표준 768㎑ 클록 주파수/샘플 레이트를 가질 때, 제1 데시메이터(242), 제2 데시메이터(244), 및 시그마-델타 변조기(246)는 신호 경로 밖으로 전환되고, 디지털 마이크로폰(122)으로부터 수신된 1-비트 768㎑ 신호는 애플리케이션 프로세서(126)로 직접 전달된다. 또한, 스푸핑 방지 블록(160)은 비활성화된다.
그러므로, 애플리케이션 프로세서(126)는 마이크로폰 블록(122)에 의해 생성된 신호에 관계없이 1-비트 768㎑ 신호를 수신한다.
도 7은 애플리케이션 프로세서(126) 내의 음성 활동 블록(146) 및/또는 음성 트리거 검출 블록(148)에 의해 생성된 신호에 기초하여 제어되는 주파수 변환기 회로(156), 제1 데시메이터(242), 제2 데시메이터(244), 시그마-델타 변조기(246) 및 스푸핑 방지 블록(160)을 도시한다. 다른 실시형태에서, 음성 활동 블록(146) 및/또는 음성 트리거 검출 블록(148)은 재생 발성 검출 회로(224) 내에 대신 제공될 수 있다.
그러므로, 높은 샘플링 속도로 고전력 모드에서 디지털 마이크가 항상 동작하도록 요구함이 없이, 스푸핑 방지 블록이 가청 주파수 범위의 상위 부분 또는 초음파 주파수 범위에 나타나는 인공물을 고려할 수 있는 시스템이 설명된다.
당업자는 전술한 장치 및 방법의 일부 양태가 프로세서 제어 코드로서, 예를 들어 디스크, CD- 또는 DVD-ROM과 같은 비휘발성 캐리어 매체, 판독 전용 메모리(펌웨어), 또는 광학 또는 전기 신호 캐리어와 같은 데이터 캐리어와 같은 프로그래밍된 메모리에서 구현될 수 있다는 것을 인식할 것이다. 많은 애플리케이션에 대해, 본 발명의 실시형태는 디지털 신호 프로세서(DSP), 주문형 집적회로(ASIC) 또는 필드 프로그램 가능 게이트 어레이(FPGA)에서 구현될 것이다. 그러므로, 코드는 통상적인 프로그램 코드 또는 마이크로폰, 또는 예를 들어 ASIC 또는 FPGA를 설정하거나 제어하기 위한 코드를 포함할 수 있다. 코드는 또한 재프로그래밍 가능한 논리 게이트 어레이와 같은 재구성 가능한 장치를 동적으로 구성하기 위한 코드를 포함할 수 있다. 유사하게, 코드는 Verilog TM 또는 VHDL(초고속 집적 회로 하드웨어 기술 언어)과 같은 하드웨어 기술 언어를 위한 코드를 포함할 수 있다. 당업자가 인식하는 바와 같이, 코드는 서로 통신하는 복수의 결합된 구성요소 사이에 분산될 수 있다. 적절한 경우, 실시형태는 아날로그 하드웨어를 구성하기 위해 필드(재)프로그램 가능 아날로그 어레이 또는 유사한 디바이스에서 실행되는 코드를 사용하여 또한 구현될 수 있다.
본 명세서에서 사용된 바와 같이, 모듈이라는 용어는 고객 정의 회로와 같은 전용 하드웨어 구성 요소에 의해 적어도 부분적으로 구현될 수 있는 및/또는 적절한 범용 프로세서 등에서 실행되는 하나 이상의 소프트웨어 프로세서 또는 적절한 코드에 의해 적어도 부분적으로 실행될 수 있는 기능 유닛 또는 블록을 지칭하도록 사용되어야 한다는 점에 유의한다. 모듈은 그 자체로 다른 모듈 또는 기능 유닛을 포함할 수 있다. 모듈은, 함께 배치될 필요가 없고 다른 집적 회로에 제공 및/또는 다른 프로세서에서 실행될 수 있는 다수의 구성 요소 또는 하위 모듈에 의해 제공될 수 있다.
실시형태는 호스트 디바이스, 특히 랩톱 또는 태블릿 컴퓨터와 같은 모바일 컴퓨팅 디바이스, 게임 콘솔, 원격 제어 디바이스, 홈 오토메이션 제어기, 또는 가정용 온도 또는 조명 제어 시스템, 장난감, 로봇과 같은 기계, 오디오 플레이어, 비디오 플레이어를 포함하는 가정용 기기, 또는 스마트폰과 같은 휴대 전화와 같은 휴대용 및/또는 배터리 구동 호스트 디바이스에서 구현될 수 있다.
상기 언급된 실시형태는 본 발명을 제한하기보다는 예시하고, 당업자는 첨부된 청구범위의 범위를 벗어남이 없이 많은 대안적인 실시형태를 설계할 수 있다는 것을 유의해야 한다. "포함하는"이라는 단어는 청구항에 나열된 것 이외의 요소 또는 단계의 존재를 배제하지 않으며, 단수 표현은 복수를 배제하지 않으며, 단일 특징부 또는 다른 유닛은 청구범위에서 인용된 여러 유닛의 기능을 수행할 수 있다. 청구범위에서의 도면 부호 또는 라벨은 그 범위를 제한하는 것으로 해석되어서는 안 된다.

Claims (23)

  1. 오디오 시스템의 동작 방법으로서,
    제어 가능한 샘플링 레이트를 갖는 아날로그-디지털 컨버터를 포함하는 디지털 마이크로폰으로부터 오디오 신호를 수신하는 단계;
    제1 음성이 수신된 오디오 신호에 존재한다는 결정에 응답하여,
    상기 오디오 신호가 제1 샘플 레이트를 갖도록 상기 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트를 제어하는 단계; 및
    상기 오디오 신호를 스푸핑 검출 회로에 적용하는 단계; 및
    상기 제1 음성이 상기 수신된 오디오 신호에서 종료되었다는 것을 나타내는 신호에 응답하여,
    상기 오디오 신호가 상기 제1 샘플 레이트보다 낮은 제2 샘플 레이트를 갖도록 상기 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트를 제어하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서, 상기 제1 음성은 임의의 음성을 포함하는, 방법.
  3. 제1항에 있어서, 상기 제1 음성은 사전 결정된 트리거 구절을 포함하는, 방법.
  4. 제1항, 제2항 및 제3항 중 어느 한 항에 있어서,
    데시메이션된 오디오 신호를 생성하기 위해 상기 오디오 신호를 제어 가능한 데시메이터(decimator)에 적용하는 단계;
    상기 제1 음성이 수신된 오디오 신호에 존재한다는 상기 결정에 응답하여, 상기 데시메이션된 오디오 신호가 사전 결정된 샘플 레이트를 갖도록 상기 데시메이터를 제어하는 단계; 및
    상기 제1 음성이 상기 수신된 오디오 신호에서 종료되었다는 것을 나타내는 상기 신호에 응답하여, 상기 데시메이션된 오디오 신호가 상기 사전 결정된 샘플 레이트를 갖도록 상기 데시메이터를 제어하는 단계
    를 더 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 제1 음성이 상기 수신된 오디오 신호에 존재하는지의 여부를 나타내는 신호를 수신하는 단계를 더 포함하는, 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 수신된 오디오 신호에서 상기 제1 음성을 검출하려고 시도하는 단계를 더 포함하는, 방법.
  7. 임의의 선행하는 청구항에 있어서, 상기 스푸핑 검출 회로는 적어도 8㎑보다 높은 주파수의 상기 오디오 신호의 성분을 검사하는, 방법.
  8. 임의의 선행하는 청구항에 있어서, 어떠한 음성도 상기 수신된 오디오 신호에서 검출되지 않을 때,
    상기 오디오 신호가 상기 제2 샘플 레이트보다 낮은 제3 샘플 레이트를 갖도록 상기 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트를 제어하는 단계를 더 포함하는, 방법.
  9. 제4항에 직접 또는 간접적으로 종속될 경우, 제8항에 있어서, 어떠한 음성도 상기 수신된 오디오 신호에서 검출되지 않을 때, 상기 데시메이션된 오디오 신호가 상기 사전 결정된 샘플 레이트를 갖도록 상기 데시메이터를 제어하는 단계를 더 포함하는, 방법.
  10. 제9항에 있어서,
    어떠한 음성도 상기 수신된 오디오 신호에서 검출되지 않을 때, 상기 오디오 신호를 상기 제어 가능한 데시메이터에 적용하기 전에 필터링하는 단계를 더 포함하는, 방법.
  11. 제8항, 제9항 및 제10항 중 어느 한 항에 있어서, 상기 제3 샘플 레이트는 50㎑ 내지 400㎑의 범위인, 방법.
  12. 임의의 선행하는 청구항에 있어서, 상기 제2 샘플 레이트는 200㎑ 내지 1㎒의 범위인, 방법.
  13. 임의의 선행하는 청구항에 있어서, 상기 제1 샘플 레이트는 1㎒ 내지 8㎒의 범위인, 방법.
  14. 제4항에 직접 또는 간접적으로 종속될 경우, 임의의 선행하는 청구항에 있어서, 상기 사전 결정된 샘플 레이트는 10㎑ 내지 60㎑의 범위인, 방법.
  15. 오디오 처리 회로로서,
    디지털 마이크로폰으로부터 오디오 신호를 수신하기 위한 입력을 포함하고, 상기 디지털 마이크로폰은 제어 가능한 샘플링 레이트를 갖는 아날로그-디지털 컨버터를 포함하되;
    상기 오디오 처리 회로는,
    제1 음성이 수신된 오디오 신호에 존재한다는 결정에 응답하여,
    상기 오디오 신호가 제1 샘플 레이트를 갖도록 상기 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트를 제어하고; 그리고
    상기 오디오 신호를 스푸핑 검출 회로에 적용하고; 그리고
    상기 제1 음성이 상기 수신된 오디오 신호에서 종료되었다는 것을 나타내는 신호에 응답하여,
    상기 오디오 신호가 상기 제1 샘플 레이트보다 낮은 제2 샘플 레이트를 갖도록 상기 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트를 제어하도록 구성되는, 오디오 처리 회로.
  16. 제15항에 있어서,
    데시메이션된 오디오 신호를 생성하도록 상기 입력으로부터 상기 오디오 신호를 수신하기 위한 제어 가능한 데시메이터를 더 포함하고;
    상기 제어 가능한 데시메이터는,
    상기 제1 음성이 상기 수신된 오디오 신호에 존재한다는 상기 결정에 응답하여, 상기 데시메이션된 오디오 신호가 사전 결정된 샘플 레이트를 갖도록; 그리고
    상기 제1 음성이 상기 수신된 오디오 신호에서 종료되었다는 것을 나타내는 상기 신호에 응답하여, 상기 데시메이션된 오디오 신호가 상기 사전 결정된 샘플 레이트를 갖도록 구성되는, 오디오 처리 회로.
  17. 제15항 또는 제16항에 있어서, 상기 스푸핑 검출 회로는 적어도 8㎑보다 높은 주파수의 상기 오디오 신호의 성분을 검사하는, 오디오 처리 회로.
  18. 제15항 내지 제17항 중 어느 한 항에 있어서, 상기 제어 가능한 데시메이터는,
    어떠한 음성도 상기 수신된 오디오 신호에서 검출되지 않을 때, 상기 오디오 신호가 상기 제2 샘플 레이트보다 낮은 제3 샘플레이트를 갖도록, 상기 디지털 마이크로폰 내의 아날로그-디지털 컨버터의 샘플링 레이트가 제어되도록 구성되는, 오디오 처리 회로.
  19. 제18항에 있어서, 상기 제3 샘플 레이트는 50㎑ 내지 400㎑의 범위인, 오디오 처리 회로.
  20. 제15항 내지 제19항 중 어느 한 항에 있어서, 상기 제2 샘플 레이트는 200㎑ 내지 1㎒의 범위인, 오디오 처리 회로.
  21. 제15항 내지 제20항 중 어느 한 항에 있어서, 상기 제1 샘플 레이트는 1㎒ 내지 8㎒의 범위인, 오디오 처리 회로.
  22. 제16항에 있어서, 상기 사전 결정된 샘플 레이트는 10㎑ 내지 60㎑의 범위인, 오디오 처리 회로.
  23. 오디오 처리 회로가 제1항 내지 제14항 중 어느 한 항에 따른 방법을 수행하게 하기 위한 명령을 포함하는 기계 판독 가능 코드를 포함하는, 컴퓨터 프로그램 제품.
KR1020227032576A 2020-02-20 2021-01-26 디지털 마이크로폰을 가진 오디오 시스템 KR102493866B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062978960P 2020-02-20 2020-02-20
US62/978,960 2020-02-20
PCT/GB2021/050181 WO2021165637A1 (en) 2020-02-20 2021-01-26 Audio system with digital microphone

Publications (2)

Publication Number Publication Date
KR20220139400A true KR20220139400A (ko) 2022-10-14
KR102493866B1 KR102493866B1 (ko) 2023-01-30

Family

ID=74554174

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227032576A KR102493866B1 (ko) 2020-02-20 2021-01-26 디지털 마이크로폰을 가진 오디오 시스템

Country Status (5)

Country Link
US (1) US11488606B2 (ko)
KR (1) KR102493866B1 (ko)
CN (1) CN115088034A (ko)
GB (1) GB2607505A (ko)
WO (1) WO2021165637A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230267936A1 (en) * 2022-02-23 2023-08-24 Nuance Communications, Inc. Frequency mapping in the voiceprint domain
CN114640518B (zh) * 2022-03-11 2023-07-25 广西师范大学 一种基于音频隐写的个性化触发器后门攻击方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070127761A1 (en) * 2003-11-24 2007-06-07 Poulsen Jens K Microphone comprising integral multi-level quantizer and single-bit conversion means
WO2019145708A1 (en) * 2018-01-23 2019-08-01 Cirrus Logic International Semiconductor Limited Speaker identification
US20190261085A1 (en) * 2016-02-26 2019-08-22 Cirrus Logic International Semiconductor Ltd. Digital microphones

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10692490B2 (en) * 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070127761A1 (en) * 2003-11-24 2007-06-07 Poulsen Jens K Microphone comprising integral multi-level quantizer and single-bit conversion means
US20190261085A1 (en) * 2016-02-26 2019-08-22 Cirrus Logic International Semiconductor Ltd. Digital microphones
WO2019145708A1 (en) * 2018-01-23 2019-08-01 Cirrus Logic International Semiconductor Limited Speaker identification

Also Published As

Publication number Publication date
WO2021165637A1 (en) 2021-08-26
CN115088034A (zh) 2022-09-20
US11488606B2 (en) 2022-11-01
GB202211769D0 (en) 2022-09-28
US20210264923A1 (en) 2021-08-26
GB2607505A (en) 2022-12-07
KR102493866B1 (ko) 2023-01-30

Similar Documents

Publication Publication Date Title
US11023755B2 (en) Detection of liveness
US10847165B2 (en) Detection of liveness
US11694695B2 (en) Speaker identification
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US11631402B2 (en) Detection of replay attack
US8909537B2 (en) Device capable of playing music and method for controlling music playing in electronic device
US11696063B2 (en) Automatic active noise reduction (ANR) control to improve user interaction
JP5085556B2 (ja) エコー除去の構成
WO2019002831A1 (en) REPRODUCTIVE ATTACK DETECTION
CN111508515A (zh) 话音命令触发的语音增强
KR102493866B1 (ko) 디지털 마이크로폰을 가진 오디오 시스템
US20190147890A1 (en) Audio peripheral device
WO2019228329A1 (zh) 个人听力装置、外部声音处理装置及相关计算机程序产品
US20220238121A1 (en) Authenticating received speech
GB2526980A (en) Sensor input recognition
US20230290335A1 (en) Detection of live speech
JP2019139146A (ja) 音声認識システム、及び、音声認識方法
US7783483B2 (en) Speech processing apparatus and control method that suspend speech recognition
GB2553040A (en) Sensor input recognition

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant