KR102580828B1 - 멀티 채널 보이스 활동 검출 - Google Patents

멀티 채널 보이스 활동 검출 Download PDF

Info

Publication number
KR102580828B1
KR102580828B1 KR1020237016229A KR20237016229A KR102580828B1 KR 102580828 B1 KR102580828 B1 KR 102580828B1 KR 1020237016229 A KR1020237016229 A KR 1020237016229A KR 20237016229 A KR20237016229 A KR 20237016229A KR 102580828 B1 KR102580828 B1 KR 102580828B1
Authority
KR
South Korea
Prior art keywords
audio
channel
score
channel audio
location
Prior art date
Application number
KR1020237016229A
Other languages
English (en)
Other versions
KR20230074602A (ko
Inventor
놀란 앤드류 밀러
라민 메헤란
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Priority to KR1020237030445A priority Critical patent/KR20230134613A/ko
Publication of KR20230074602A publication Critical patent/KR20230074602A/ko
Application granted granted Critical
Publication of KR102580828B1 publication Critical patent/KR102580828B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

멀티 채널 보이스 활동 검출을 위한 방법(800)은 마이크로폰들(106)의 어레이에 의해 캡처된 스트리밍 멀티 채널 오디오(118)를 나타내는 입력 프레임들(164)의 시퀀스를 수신하는 단계를 포함한다. 스트리밍 멀티 채널 오디오의 각 채널(119)은 별도의 전용 마이크로폰에 의해 캡처된 각각의 오디오 피처들(162)을 포함한다. 이 방법은 또한 위치 지문 모델(120)을 사용하여 각각의 오디오 피처들에 기초하여 사용자 디바이스(102)에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문(124)을 결정하는 단계를 포함한다. 방법은 또한 애플리케이션-특정 분류기(130)로부터 출력을 생성하는 단계를 포함한다. 제1 스코어(134)는 멀티 채널 오디오가 특정 오디오 유형에 대응할 가능성을 나타낸다. 방법은 또한 애플리케이션-특정 분류기로부터의 출력으로서 생성된 제1 스코어에 기초하여 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계를 포함한다.

Description

멀티 채널 보이스 활동 검출
본 개시는 멀티 채널 보이스 활동 검출에 관한 것이다.
지난 몇 년 동안 스피치 지원 디바이스들의 인기가 높아졌다. 스피치 지원 디바이스들의 한 가지 과제는 주변 환경의 배경 노이즈와 디바이스를 향한 스피치를 구분하는 능력이다. 이 능력을 통해 디바이스는 수신된 오디오 입력이 디바이스에서 오디오를 추가로 프로세싱(예: 명령 또는 쿼리를 프로세싱)하거나 단순히 수신된 오디오를 무시하도록 요구하는지 여부를 결정할 수 있다. 다양한 오디오 소스가 배경 노이즈에 영향을 미치는 환경에 디바이스가 있는 경우, 디바이스가 배경 노이즈와 디바이스를 향한 스피치를 식별하는 능력이 어려워진다.
본 개시의 일 양태는 멀티 채널 보이스 활동 검출을 위한 방법을 제공한다. 이 방법은 사용자 디바이스의 데이터 프로세싱 하드웨어에서, 데이터 프로세싱 하드웨어와 통신하는 마이크로폰들의 어레이에 의해 캡처된 스트리밍 멀티 채널 오디오를 나타내는 입력 프레임들의 시퀀스를 수신하는 단계를 포함한다. 스트리밍 멀티 채널 오디오의 각 채널에는 마이크로폰들의 어레이에서 별도의 전용 마이크로폰에 의해 캡처된 각각의 오디오 피처들이 포함될 수 있다. 방법은 또한 데이터 프로세싱 하드웨어에 의해, 위치 지문 모델을 사용하여, 멀티 채널 오디오의 각 채널의 각각의 오디오 피처들에 기초하여 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계를 포함한다. 이 방법은 또한 데이터 프로세싱 하드웨어에 의해, 위치 지문을 입력으로 수신하도록 구성된 애플리케이션-특정 분류기의 출력으로서, 멀티 채널 오디오가 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응할 가능성을 나타내는 제1 스코어를 생성하는 단계를 포함한다. 방법은 또한 데이터 프로세싱 하드웨어에 의해, 애플리케이션-특정 분류기로부터의 출력으로서 생성된 제1 스코어에 기초하여 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계를 포함한다.
본 개시의 구현예들은 다음의 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현예들에서, 방법은 데이터 프로세싱 하드웨어에 의해, 보이스 활동 검출기(VAD) 모델을 사용하여, 멀티 채널 오디오가 인간-유래(human-originated) 스피치에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계를 더 포함한다. 이 구현예들에서, 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계는, 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어에 더 기초한다.
일부 예들에서, 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계는 제1 스코어와 제2 스코어를 합산된 스코어로 합산하는 단계 및 합산된 스코어가 수락 임계값을 만족하는지 여부를 결정하는 단계를 포함한다. 이 예에서, 방법은 또한 합산된 스코어가 수락 임계값을 만족하는 경우, 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 수락하는 단계, 또는 합산된 스코어가 수락 임계값을 만족하지 못하는 경우, 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 거부하는 단계 중 하나의 단계를 더 포함한다.
선택적으로, 방법은 데이터 프로세싱 하드웨어에 의해, 위치 지문 및 하나 이상의 이전 위치 지문에 기초하여 집계된 지문을 생성하는 단계를 더 포함한다. 방법은 또한, 데이터 프로세싱 하드웨어에 의해, 집계된 지문을 입력으로서 수신하도록 구성된 빔 형성기를 사용하여, 멀티 채널 오디오로부터 오디오 데이터의 단일 채널을 추출하는 단계를 포함할 수 있다. 추출된 단일 채널의 오디오 데이터는 위치 지문에 의해 나타나는 소스의 위치에 대응하는 각각의 오디오 피처들만을 포함한다. 여기서, 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계는, VAD 모델에 대한 입력으로서 수신되는 추출된 오디오 데이터의 단일 채널에 기초하여 VAD 모델로부터의 출력으로서 제2 스코어를 생성하는 단계를 포함할 수 있다.
방법은 데이터 프로세싱 하드웨어에 의해, 빔 형성기의 신뢰도 레벨에 기초하여 제2 스코어를 조정하는 단계를 포함할 수 있다. 일부 구현예들에서, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 단일 소스 위치를 갖는 오디오 또는 다수의 소스 위치를 갖는 오디오 중 하나를 포함할 수 있다. 일부 예에서, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 이동 소스 위치를 갖는 오디오 또는 정적 소스 위치를 갖는 오디오 중 하나를 포함할 수 있다. 선택적으로, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 근거리 소스 오디오 또는 원거리 소스 오디오 중 하나를 포함할 수 있습니다. 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 포인트 소스 오디오 또는 스피커 시스템 오디오 중 하나를 포함할 수 있다.
일부 구현예들에서, 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계는 도달 시간차 및 이득 모델을 사용하여 멀티 채널 오디오의 각 채널을 프로세싱하는 단계를 포함한다. 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계는 공간 확률 모델을 사용하여 멀티 채널 오디오의 각 채널을 프로세싱하는 단계를 포함할 수 있다.
일부 예들에서, 방법은 데이터 프로세싱 하드웨어에 의해, 애플리케이션-특정 분류기로부터의 출력으로서, 위치 지문에 기초하여, 멀티 채널 오디오가 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형과 상이한 오디오 유형에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계 및 데이터 프로세싱 하드웨어에 의해, 동일한 위치 지문을 가진 후속 스트리밍 멀티 채널 오디오를 무시하는 단계를 더 포함한다. 선택적으로, 애플리케이션-특정 분류기는 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응하는 멀티 채널 오디오를 포함하는 포지티브 트레이닝 샘플들 및 상기 특정 애플리케이션이 프로세싱하도록 구성되지 않은 하나 이상의 다른 오디오 유형에 대응하는 멀티 채널 오디오를 포함하는 네거티브 트레이닝 샘플들에 대해 트레이닝된다.
본 발명의 또 다른 양태는 멀티 채널 보이스 활동 검출을 위한 시스템을 제공한다. 시스템은 사용자 디바이스의 데이터 프로세싱 하드웨어 및 데이터 프로세싱 하드웨어와 통신하는 메모리 하드웨어를 포함한다. 메모리 하드웨어는 데이터 프로세싱 하드웨어에서 실행될 때 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 명령어들을 저장한다. 동작들은 데이터 프로세싱 하드웨어와 통신하는 마이크로폰들의 어레이에 의해 캡처된 스트리밍 멀티 채널 오디오를 나타내는 입력 프레임들의 시퀀스를 수신하는 단계를 포함한다. 스트리밍 멀티 채널 오디오의 각 채널에는 마이크로폰들의 어레이에서 별도의 전용 마이크에 의해 캡처된 각각의 오디오 피처들이 포함될 수 있다. 동작들은 또한 위치 지문 모델을 사용하여, 멀티 채널 오디오의 각 채널의 각각의 오디오 피처들에 기초하여 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계를 포함한다. 동작들은 또한 입력으로서 위치 지문을 수신하도록 구성된 애플리케이션-특정 분류기로부터의 출력으로서, 멀티 채널 오디오가 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응할 가능성을 나타내는 제1 스코어를 생성하는 단계를 포함한다. 동작들은 또한 애플리케이션-특정 분류기로부터의 출력으로서 생성된 제1 스코어에 기초하여 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계를 포함한다.
이 양태는 다음의 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현예들에서, 동작들은 보이스 활동 검출기(VAD) 모델을 사용하여, 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계를 더 포함한다. 이 구현예들에서, 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계는 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어에 더 기초한다.
일부 예에서, 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계는, 제1 스코어와 제2 스코어를 합산된 스코어로 합산하고 합산된 스코어가 수락 임계값을 만족하는지 여부를 결정하는 단계를 포함한다. 이 예에서, 동작들은 또한 합산된 스코어가 수락 임계값을 만족하는 경우, 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 수락하는 단계 또는 합산된 스코어가 수락 임계값을 충족하지 못하는 경우, 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오를 거부하는 단계 중 하나의 단계를 포함한다.
선택적으로, 동작들은 위치 지문 및 하나 이상의 이전 위치 지문들에 기초하여 집계된 지문을 생성하는 단계 및 집계된 지문을 입력으로 수신하도록 구성된 빔 형성기를 사용하여, 멀티 채널 오디오로부터 오디오 데이터의 단일 채널을 추출하는 단계를 더 포함한다. 추출된 단일 채널의 오디오 데이터는 위치 지문에 의해 나타나는 소스의 위치에 대응하는 각각의 오디오 피처들만을 포함한다. 여기서, 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계는, VAD 모델에 대한 입력으로서 수신되는 추출된 오디오 데이터의 단일 채널에 기초하여 VAD 모델로부터의 출력으로서 제2 스코어를 생성하는 단계를 포함한다.
동작들은 빔 형성기의 신뢰도 레벨에 기초하여 제2 스코어를 조정하는 단계를 포함할 수 있다. 일부 구현예들에서, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 단일 소스 위치를 갖는 오디오 또는 다수의 소스 위치를 갖는 오디오 중 하나를 포함할 수 있다. 일부 예들에서, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 이동 소스 위치를 갖는 오디오 또는 정적 소스 위치를 갖는 오디오 중 하나를 포함할 수 있다. 선택적으로, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 근거리 소스 오디오 또는 원거리 소스 오디오 중 하나를 포함할 수 있다. 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 포인트 소스 오디오 또는 스피커 시스템 오디오 중 하나를 포함할 수 있다.
일부 구현예들에서, 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계는, 도달 시간차 및 이득 모델을 사용하여 멀티 채널 오디오의 각 채널을 프로세싱하는 단계를 포함한다. 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계는, 공간 확률 모델을 사용하여 멀티 채널 오디오의 각 채널을 프로세싱하는 단계를 포함할 수 있다.
일부 예들에서, 동작들은 애플리케이션-특정 분류기로부터의 출력으로서, 위치 지문에 기초하여, 멀티 채널 오디오가 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형과 상이한 오디오 유형에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계 및 동일한 위치 지문을 가진 후속 스트리밍 멀티 채널 오디오를 무시하는 단계를 더 포함한다. 선택적으로, 애플리케이션-특정 분류기는 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응하는 멀티 채널 오디오를 포함하는 포지티브 트레이닝 샘플 및 특정 애플리케이션이 프로세싱하도록 구성되지 않은 하나 이상의 다른 오디오 유형에 대응하는 멀티 채널 오디오를 포함하는 네거티브 트레이닝 샘플에 대해 트레이닝된다.
본 발명의 하나 이상의 구현예들에 대한 세부 사항은 첨부된 도면과 아래 설명에 설명되어 있다. 다른 양태들, 특징들 및 이점들은 설명, 도면 및 청구범위로부터 명백할 것이다.
도 1은 멀티 채널 보이스 활동 검출기를 위한 예시적인 시스템의 개략도이다.
도 2는 도 1의 멀티 채널 보이스 활동 검출기의 예시적인 구성요소들의 개략도이다.
도 3a는 예시적인 멀티 소스 오디오 신호의 개략도이다.
도 3b는 예시적인 단일 소스 오디오 신호의 개략도이다.
도 4a는 예시적인 정적 소스 오디오 신호의 개략도이다.
도 4b는 예시적인 이동 소스 오디오 신호의 개략도이다.
도 5는 사용자 디바이스의 근거리 영역과 원거리 영역의 일례에 대한 개략도이다.
도 6은 위치 지문의 방향 벡터의 개략도이다.
도 7은 멀티 채널 보이스 활동 검출기의 위치 분류기 모델을 트레이닝하는 개략도이다.
도 8은 멀티 채널 보이스 활동 검출 방법에 대한 동작들의 예시적인 배열 흐름도이다.
도 9는 본 명세서에 기술된 시스템들 및 방법들을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 디바이스의 개략도이다.
다양한 도면에서 유사한 참조 기호들은 유사한 요소들을 나타낸다.
스피치 지원 디바이스 및/또는 보이스 지원 디바이스는 주변 환경의 오디오에 영향을 받는다. 종종 이러한 디바이스들은 디바이스를 향하지 않는 배경 노이즈(예: 주변 대화, 텔레비전 등)를 포함하는 오디오 입력을 수신한다. 일반적으로, 스피치 지원 디바이스는 디바이스로 향하지 않는 오디오를 무시하는 것이 바람직하다(예: 오디오에 응답하지 않거나 추가로 프로세싱하지 않음). 예를 들어, 텔레비전으로부터 오디오 입력을 수신하는 스피치 지원 디바이스는 일반적으로 수신된 오디오를 무시할 것으로 예상된다. 그러나 사용자가 스피치 지원 디바이스에 직접 말하면(예: 명령 또는 쿼리), 디바이스는 사용자에게 응답해야 한다. 상당한 배경 노이즈가 있는 환경에서는 스피치 지원 디바이스로 향하는 오디오를 분리하는 것이 어려워진다.
본 명세서에서의 구현예들은 스트리밍 오디오 입력이 스피치 지원 디바이스를 향하는 인간의 스피치를 포함하는 경우를 결정하는 멀티 채널 보이스 활동 검출기(VAD)를 포함하는 시스템에 관한 것이다. 시스템은 오디오 소스로부터 수신된 스트리밍 멀티 채널 오디오에 기초하여 위치 지문을 결정하고, 위치 지문이 스피치 지원 디바이스의 애플리케이션에 대응하는 오디오 유형과 호환되는지 여부를 결정한다. 선택적으로, 빔 형성기는 멀티 채널 스트리밍 오디오에서 오디오 채널을 추출하고, 추출된 오디오 채널을 VAD에 전달하여 추출된 오디오 채널이 인간의 스피치와 일치하는지 여부를 결정한다. 위치 지문 및 VAD 결정에 기초하여, 시스템은 특정 애플리케이션(예: 핫워드 검출, 자동 스피치 인식(ASR) 등)에서 프로세싱하기 위해 멀티 채널 스트리밍 오디오를 수락하거나 거부한다.
이제 도 1을 참조하면, 일부 구현예들에서, 예시적인 시스템(100)은 각자의 사용자(10)와 각각 연관되고 네트워크(104)를 통해 원격 시스템(110)과 통신하는 하나 이상의 사용자 디바이스들(102)을 포함한다. 각 사용자 디바이스(102)는 휴대폰, 컴퓨터, 웨어러블 디바이스, 스마트 기기, 오디오 인포테인먼트 시스템, 스마트 스피커 등과 같은 컴퓨팅 디바이스에 대응할 수 있으며, 데이터 프로세싱 하드웨어(103) 및 메모리 하드웨어(105)가 탑재되어 있다. 원격 시스템(110)은 확장가능/탄력적인 컴퓨팅 리소스(112)(예: 데이터 프로세싱 하드웨어) 및/또는 스토리지 리소스(114)(예: 메모리 하드웨어)를 갖는 단일 컴퓨터, 다수의 컴퓨터들 또는 분산 시스템(예: 클라우드 환경)일 수 있다. 사용자 디바이스(102)는 원격 시스템(110)과 통신하는 마이크로폰들(106, 106a-n)의 어레이에 의해 캡처된 스트리밍 멀티 채널 오디오(118)를 나타내는 입력 프레임들(164, 164a-n)의 시퀀스를 획득한다.
스트리밍 멀티 채널 오디오(118)의 각 채널(119, 119a-n)은 마이크로폰들(106, 106a-n)의 어레이에서 별도의 전용 마이크로폰(106)에 의해 캡처된 각각의 오디오 피처들(162)을 포함한다. 사용자 디바이스(102)는 사용자(10)로부터 발화(116)를 캡처하기 위해 2개 이상의 마이크로폰들(106)을 포함한다(또는 그와 통신한다). 각 마이크로폰(106)은 멀티 채널 스트리밍 오디오(118)의 별도의 전용 채널(119)에 발화(116)를 별도로 녹음할 수 있다. 예를 들어, 사용자 디바이스(102)는 발화(116)를 각각 녹음하는 2개의 마이크로폰들(106)을 포함하고, 2개의 마이크로폰들(106)로부터의 녹음은 2채널 스트리밍 오디오(118)(즉, 스테레오 오디오 또는 스테레오)로 결합될 수 있다. 추가적으로 또는 대안적으로, 사용자 디바이스(102)는 사용자 디바이스(102)로부터 분리된/원격에 있는 하나 이상의 마이크로폰들과 통신할 수 있다. 예를 들어, 사용자 디바이스(102)는 차량 내에 배치되고 차량의 2개 이상의 마이크로폰들과 유선 또는 무선 통신(예: 블루투스)하는 모바일 디바이스이다. 일부 구성에서, 사용자 디바이스(102)는 별도의 디바이스(101)에 상주하는 적어도 하나의 마이크로폰(106)과 통신하며, 이는 제한 없이 차량 내 오디오 시스템, 컴퓨팅 디바이스, 스피커 또는 다른 사용자 디바이스를 포함할 수 있다. 이러한 구성에서, 사용자 디바이스(102)는 별도의 디바이스(101)에 있는 하나 이상의 마이크로폰들과 통신할 수도 있다.
사용자 디바이스(102)는 위치 지문 모델(120)을 실행한다. 위치 지문 모델(120)은 멀티 채널 스트리밍 오디오(118)의 각 채널(119)을 수신하고, 멀티 채널 오디오(118)의 각 채널(119)의 각각의 오디오 피처들(162)에 기초하여 사용자 디바이스(102)에 대한 멀티 채널 오디오(118)의 소스(또는 다수의 소스들)의 위치를 나타내는 위치 지문(124)을 결정한다. 즉, 위치 지문(124)은 멀티 채널 스트리밍 오디오(118)로부터 유도된 위치 임베딩을 포함할 수 있다. 일부 예에서, 위치 지문(124)은 사용자 디바이스(102)에 대한 멀티 채널 오디오(118)의 소스 방향을 나타낸다.
일부 구현예들에서, 위치 지문 모델(120)은 도달 시간차 및 이득 모델을 사용하여 멀티 채널 오디오(118)의 각 채널(119)을 프로세싱함으로써 위치 지문(124)을 결정한다. 즉, 위치 지문 모델(120)은 멀티 스트리밍 오디오(118)의 각 채널(119)에서 도달 시간들의 차와 이득을 이용한다. 다른 구현예들에서, 위치 지문 모델(120)은 공간 확률 모델(예: 스티어링 응답 전력 위상 변환(Steered-Response Power Phase Transform)(SRP-PHAT) 알고리즘)을 사용하여 멀티 채널 오디오(118)의 각 채널(119)을 프로세싱함으로써 위치 지문(124)을 결정한다.
사용자 디바이스(102)는 또한 위치 분류기 모델(130)(본 명세서에서 애플리케이션-특정 분류기 모델이라고도 함)을 실행한다. 아래에서 더 자세히 설명되는 바와 같이, 위치 분류기 모델(130)은 사용자 디바이스(102)에 의해 실행되는 특정 애플리케이션에 기초하여 위치 지문(124)을 분류한다. 위치 분류기 모델은 멀티 채널 오디오(118)가 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응할 가능성을 나타내는 제1 스코어(134)를 생성한다. 즉, 사용자 디바이스(102) 및/또는 원격 시스템(110)은 위치 지문 모델(120)이 구성된 특정 애플리케이션(예: 핫워드 검출기, 자동 스피치 인식기 등)을 실행한다. 출력 스코어러(140)는 제1 스코어(134)를 수신한다. 일부 구현예들에서, 출력 스코어러(140)는 위치 분류기 모델(130)로부터의 출력으로서 생성된 제1 스코어(134)에 기초하여 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오(118)를 수락할지 또는 거부할지 여부를 결정한다. 예를 들어, 출력 스코어러(140)는 제1 스코어(134)가 제1 스코어 임계값을 만족하는지 여부를 결정한다.
여기서, 출력 스코어러(140)가 제1스코어가 제1스코어 임계값을 만족한다고 결정할 때, 출력 스코어러(140)는 멀티 스트리밍 오디오(118)의 오디오 피처들(162)을 특정 애플리케이션에 기초한 추가 프로세싱을 위해 원격 시스템(110)에서 실행하는 오디오 프로세서(150)로 전송한다. 다른 예들에서, 사용자 디바이스(102)는 오디오 프로세서(150)를 실행하고 출력 스코어러(140)는 오디오 피처들(162)(또는 스트리밍 오디오(118)의 임의의 다른 형태)을 로컬 오디오 프로세서(150)(예: 핫워드 검출기, 자동 스피치 인식기 등)에 전달한다. 오디오 프로세서(150)와 유사하게, 위치 지문 모델(120) 및 위치 분류기 모델(130)은 추가적으로 또는 대안적으로 원격 시스템(110) 및/또는 사용자 디바이스(102)에 의해 실행될 수 있다.
도시된 예에서, 사용자(10)가 핫워드(예: "Hey Google")를 포함하는 발화(116)를 말할 때, 사용자 디바이스(102)는 입력 프레임들(164)의 시퀀스에 의해 표현되는 스트리밍 오디오(118)를 캡처한다. 위치 지문 모델(120)은 발화(116)(예: "Hey Google")에 기초하여 위치 지문(124)을 생성하고 위치 지문(124)을 위치 분류기 모델(130)로 전송한다. 위치 분류기 모델(130)은 위치 지문(124)에 기초하여 채널(119)이 특정 애플리케이션(즉, 오디오 프로세서(150))이 프로세싱하도록 구성된 특정 유형의 오디오에 대응할 가능성을 나타내는 제1 스코어(134)를 생성한다. 오디오 프로세서(150)는 특정 애플리케이션에 따라 스트리밍 오디오(119)(예: 오디오 피처들(162))의 채널에 대해 추가 프로세싱을 수행한다. 일부 예들에서, 오디오 프로세서(150)는 발화(1160)에서 핫워드의 존재를 검출하여 발화(116)에서 핫워드 및/또는 핫워드에 후속하는 하나 이상의 다른 용어들(예: 쿼리 또는 명령)을 프로세싱하기 위한 사용자 디바이스(112)에서의 웨이크업 프로세스를 개시하도록 구성된다.
이제 도 2를 참조하면, 일부 구현예들에서, 사용자 디바이스(102)는 빔 형성기(222)를 실행한다. 빔 형성기(222)는 스트리밍 오디오(119)의 각 채널을 수신하고 멀티 채널 스트리밍 오디오(118)로부터 단일 채널(119B)을 추출한다. 추출된 오디오의 단일 채널(119B)은 스트리밍 오디오(118)의 소스(예: 위치 지문(124)에 의해 나타나는 소스)의 위치에 대응하는 각각의 오디오 피처들(162)만을 포함할 수 있다. 즉, 일부 예들에서, 빔 형성기(222)는 마이크로폰들(106)의 어레이에서 마이크로폰들(106)에 의해 캡처된 멀티 채널 오디오(118)로부터 오디오 데이터의 단일 채널(119B)을 추출한다. 빔 형성기(222)는 위치 지문(124)에 의해 나타나는 위치와 일치하는 오디오를 추출하기 위해 멀티 채널 오디오(118)에 대한 빔 형성(즉, 방향 신호 수신을 위한 공간 필터링)을 수행하기 위해 위치 지문(124)을 사용할 수 있다. 즉, 빔 형성기(222)는 위치 지문(124)이 나타내는 방향으로 수신되는 오디오를 강조하고, 다른 방향으로부터 수신되는 오디오를 강조하지 않을 수 있다(즉, 멀티 스트리밍 오디오(118)와 동일한 방향에서 발생하지 않는 배경 노이즈를 줄임). 일부 구현예들에서, 빔 형성기(222)는 추출된 오디오의 채널(119B)이 시간적으로 안정적임을 보장하기 위해 상태 저장된다.
선택적으로, 빔 형성기(222)는 위치 지문(124) 대신에 또는 추가로 집계된 지문을 수신할 수 있다. 예를 들어, 애그리게이터(aggregator) 모델(또는 대안적으로 빔 형성기(222) 자체)은 위치 지문 모델(120)에 의해 이전에 생성된 위치 지문들(124)의 시퀀스를 프로세싱하는 것을 포함하는 위치 지문(124)의 상태 저장 프로세싱을 수행한다. 애그리게이터 모델(또는 빔 형성기(222))은 임의의 수의 이전에 생성된 위치 지문들(124)을 유지하기 위한 스토리지를 포함할 수 있다.
일부 예들에서, 빔 형성기(222) 대신에, 사용자 디바이스(102)는 다운 먹서(224)(즉, 멀티플렉서)를 실행한다. 다운 먹서(224)는 위치 지문(124)에 의해 나타나는 오디오 소스와 가장 일치하는 멀티 채널 스트리밍 오디오(118)의 채널(119S)을 선택할 수 있다. 다운 먹서(224)는 빔 형성기(222)의 복잡성 및/또는 계산 능력이 특정 애플리케이션에 필요하지 않은 경우에 유리할 수 있지만, 보이스 활동 검출에는 여전히 오디오의 단일 채널(119S)이 필요하다. 빔 형성기(222)(또는 다운 먹서(224))는 오디오의 단일 채널(119B, 119S)을 보이스 활동 검출기(VAD) 모델(230)로 전송한다. 빔 형성기(222)/다운 먹서(224)는 VAD 모델(230)이 프로세싱할 고품질 단일 오디오 채널(119S, 119B)을 제공한다. 오디오의 단일 채널(119B, 119S)에 기초한 VAD 모델(230)은 오디오의 단일 채널(119B, 119S)이 인간의 스피치에 대응할 가능성(즉, 오디오가 인간의 스피킹을 포함함)을 나타내는 제2 스코어(234)를 생성한다. VAD 모델(230)은 보이스 활동 검출을 위한 임의의 종래 기술을 사용할 수 있다. 일부 예에서, VAD 모델(230)은 심층 신경 네트워크(DNN) 또는 콘볼루션 신경 네트워크(CNN)과 같은 신경 네트워크를 포함한다.
도 2를 계속 참조하면, 출력 스코어러(140)는 위치 분류기 모델(130)로부터의 제1 스코어(134) 및 VAD 모델(230)로부터의 제2 스코어(234) 모두를 수신한다. 출력 스코어러(140)는 제1 스코어(134)(멀티 채널 오디오(118)가 오디오 프로세서(150)에 대한 특정 오디오 유형에 대응할 가능성을 나타냄) 및 제2 스코어(234)(멀티 채널 오디오(118)가 인간-유래 스피치에 대응할 가능성을 나타냄)에 기초하여 특정 애플리케이션(즉, 오디오 프로세서(150))에 의한 프로세싱을 위해 멀티 채널 오디오(118)를 수락할지 또는 거부할지 여부를 결정한다.
일부 구현예들에서, 오디오 프로세서(150)는 하나 이상의 임계값들에 기초하여 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오(118)를 수락할지 또는 거부할지 여부를 결정한다. 예를 들어, 출력 스코어러(140)는 제1 스코어(134)와 제2 스코어(234)를 합산하고 합산된 스코어가 수락 임계값을 만족하는지 여부를 결정한다. 이 시나리오에서, 출력 스코어러(140)는 제1 스코어(134) 및/또는 제2 스코어(234)에 가중치를 부여할 수 있다(예: 위치 지문(124) 및/또는 빔 형성기(222)의 신뢰도 레벨, 신뢰도 곱셈 등에 기초하여). 합산된 스코어가 수락 임계값을 만족하는 경우, 출력 스코어러(140)는 특정 애플리케이션(즉, 오디오 프로세서(150))에 의한 추가 프로세싱을 위해 멀티 채널 오디오(118)를 수락할 수 있다. 합산된 스코어가 수락 임계값을 만족하지 못하는 경우, 출력 스코어러(140)는 특정 애플리케이션(즉, 오디오 프로세서(150))에 의한 프로세싱을 위해 멀티 채널 오디오(118)를 거부할 수 있다. 사용자 디바이스(102)는 사용자(10)로부터의 입력, 사용자 디바이스(102)의 환경, 및/또는 원격 시스템(110)으로부터 수신된 명령에 기초하여 수락 임계값을 튜닝하거나 조정할 수 있다.
대안적으로, 출력 스코어러(140)는 제1 스코어(134)가 제1 스코어 임계값을 만족하는지 여부 및 제2 스코어(234)가 제2 스코어 임계값을 만족하는지 여부를 결정할 수 있다(즉, 논리적 AND). 사용자 디바이스(102)는 사용자(10)로부터의 입력, 사용자 디바이스(102)의 환경, 및/또는 원격 시스템(110)으로부터 수신된 명령에 기초하여 각각의 임계값을 튜닝하거나 조정할 수 있다. 제1 스코어(134)가 제1 스코어 임계값을 만족하고 제2 스코어(234)가 제2 스코어 임계값을 만족할 때, 출력 스코어러(140)는 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오(118)를 수락하고 오디오 피처들(162)(또는 멀티 스트리밍 오디오(118)의 다른 양태들)을 오디오 프로세서(150)(사용자 디바이스(102) 또는 원격 시스템(110)에서 실행)로 전송한다. 제1 스코어(134)가 제1 스코어 임계값을 만족하지 못하거나 및/또는 제2 스코어(234)가 제2 스코어 임계값을 만족시키지 못하는 경우, 출력 스코어러(140)는 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오(118)를 거부한다.
이제 도 3a 및 도 3b를 참조하면, 일부 구현예들에서, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 멀티 채널 스트리밍 오디오(118)의 소스 속성에 기초한다. 예를 들어, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 단일 소스 위치를 갖는 오디오(320) 또는 다수의 소스 위치를 갖는 오디오(310) 중 하나를 포함한다. 도 3a에서, 텔레비전(312)은 2개 이상의 스피커들(314)을 포함한다. 각 스피커는 오디오(316)를 방출하여 멀티 소스 스트리밍 오디오(118)를 형성한다. 이 예에서, 위치 지문 모델(120)은 텔레비전(312)으로부터의 멀티 채널 오디오(118)가 다수의 소스들을 갖는다고 결정한다. 도 3b에서, 사용자(10)는 단일 소스 오디오 신호(320)로 스트리밍 오디오(118)를 형성하기 위해 발화(116)를 제공한다. 도 3a의 예와 대조적으로, 위치 지문 모델(120)은 도 3b의 사용자(10)로부터의 발화(116)가 단일 소스 오디오 신호(320)라고 결정할 수 있다. 따라서, (위치 지문(124)에 기초하여) 위치 분류기 모델(130)은 스트리밍 오디오(118)가 단일 소스(320) 또는 다수의 소스들(310)부터 발생하는지 여부를 결정할 수 있다. 일부 특정 애플리케이션의 경우, 출력 스코어러(140)는 단일 소스 또는 다수의 소스들(310)에서 발생하는 스트리밍 오디오(118)를 거부한다. 예를 들어, 특정 애플리케이션이 사용자의 스피치에서 핫워드의 존재를 검출하도록 구성된 핫워드 검출기일 때, 다수의 소스들(예: 텔레비전(312)로부터의)을 갖는 스트리밍 오디오(118)는 오디오 프로세서(150)가 프로세싱하도록 구성된 오디오(즉, 이 경우 사용자로부터의 핫워드)일 가능성이 없다.
일부 구현예들에서, 위치 분류기 모델(130)은 멀티 채널 오디오(118)가 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형과 상이한 오디오 유형에 대응할 가능성을 나타내기 위해 위치 지문(124)에 기초하여 제2 스코어(234)를 생성한다. 예를 들어, 위치 분류기 모델(130)은 특정 애플리케이션이 단일 소스 오디오(320)를 프로세싱하도록 구성되는 경우 멀티 채널 오디오(118)가 멀티 소스 오디오(310)에 대응할 가능성을 나타내는 제2 스코어(234)를 생성한다. 이 시나리오에서, 사용자 디바이스(102) 및/또는 원격 시스템(110)은 동일한 위치 지문(124)을 갖는 후속 스트리밍 멀티 채널 오디오(118)를 무시할 수 있다. 즉, 이전 예를 계속하면, 위치 분류기 모델(130)이 스트리밍 오디오(118)가 멀티 소스 오디오(310)(예: 텔레비전(312))로부터 온 것임을 나타내는 제2 스코어(136)를 생성할 때, 출력 스코어러(140)는 오디오 프로세서(150)가 단일 소스 오디오(320)를 프로세싱하도록 구성됨에 따라 스트리밍 오디오(118)를 거부한다. 출력 스코어러(140)는 스트리밍 오디오(118)가 이전에 거부된 동일한 소스(즉, 텔레비전(312))로부터 나올 가능성이 있기 때문에 동일한 위치 지문(124)을 갖는 후속 멀티 채널 오디오(118)를 무시할 수 있다. 일부 예에서, 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 포인트 소스 오디오 또는 스피커 시스템 오디오 중 하나를 포함한다.
이제 도 4a-b를 참조하면, 일부 구현예들에서, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 이동 소스 위치를 갖는 오디오(420) 또는 정적 소스 위치를 갖는 오디오(410) 중 하나를 포함한다. 도 4a에서, 라디오(412)는 스트리밍 오디오(118)를 사용자 디바이스(102)로 전송한다. 이 예에서, 라디오(412)는 제자리에 고정되어 스트리밍 오디오(118)에 대한 정적(즉, 움직이지 않는) 소스를 생성한다. 대조적으로, 도 4b는 사용자 디바이스(102)에 의해 수신된 스트리밍 오디오(118)를 생성하는 동안 이동 중인 사용자(10)를 도시한다. 여기서, 스트리밍 오디오(118)는 이동 소스 위치를 갖는다. 일부 구현예들에서, 위치 지문(124)에 기초하여, 위치 분류기 모델(130)은 스트리밍 오디오(118)를 정적 소스 또는 이동 소스로 분류한다. 출력 스코어러(140)는 스트리밍 오디오(118)의 소스가 움직이는지 정적인지에 적어도 부분적으로 기초하여 스트리밍 오디오를 수락하거나 거부할 수 있다. 예를 들어, 사용자 디바이스(102)가 휴대폰일 때, 일반적으로 사용자는 사용자 디바이스(102)에 대한 정적 위치로부터 사용자 디바이스(102)에 쿼리한다. 예를 들어, 사용자(10)는 사용자(10) 앞에서 사용자 디바이스(102)를 들고 사용자 디바이스(102)에 쿼리를 진술한다. 이 예에서, 사용자 디바이스(102)는 이동 소스가 사용자 디바이스(102)를 향하지 않는 주변 대화일 가능성이 높기 때문에 이동 소스를 갖는 스트리밍 오디오(118)를 거부할 가능성이 더 크다.
이제 도 5를 참조하면, 일부 구현예들에서, 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 근거리 소스 오디오 또는 원거리 소스 오디오 중 하나를 포함한다. 예를 들어, 위치 분류기 모델(130)은 사용자 디바이스(102)가 사용자 디바이스(102)의 전자기장의 근거리 영역(510) 또는 사용자 디바이스(102) 주변의 전자기장의 원거리 영역(520) 내에 위치하는지 여부에 적어도 부분적으로 기초하여 제1 스코어(134)를 결정한다. 예를 들어, 도 5에서, 사용자(10)는 사용자 디바이스(102)의 근거리 영역(510) 내에서 발생하는 스트리밍 오디오(118)를 제공한다. 대조적으로, 텔레비전(312)은 사용자 디바이스(102)의 원거리 영역(520) 내에서 발생하는 스트리밍 오디오(118)를 방출한다. 출력 스코어러(140)는 스트리밍 오디오의 소스가 사용자 디바이스(102)의 근거리 영역(510) 내에 있는지 또는 사용자 디바이스(102)의 원거리 영역(520) 내에 있는지에 적어도 부분적으로 기초하여 (예: 제1 스코어(134)를 통해) 스트리밍 오디오(118)를 수락 또는 거부할 수 있다. 예를 들어, 사용자 디바이스(102)가 휴대폰일 때, 사용자(10)는 사용자 디바이스(102)의 근거리 영역(510) 내에 있을 때 일반적으로 스피치 지원 사용자 디바이스(102)에 관여할 것이다. 따라서, 사용자 디바이스(102)는 사용자 디바이스(102)의 원거리 영역(520) 내에서 발생하는(즉, 휴대폰 근처에 있지 않은 소스로부터 발생하는) 스트리밍 오디오(118)를 거부할 가능성이 더 높을 수 있다. 일부 구현예들에서, 사용자 디바이스(102)는 근거리 영역(510) 및 원거리 영역(520)에 적어도 부분적으로 기초하여 스트리밍 오디오(118)를 각각 수신한 다수의 스피치 지원 사용자 디바이스들(102) 사이에서 중재를 수행한다. 예를 들어, 2개의 상이한 사용자 디바이스들(102)이 각각 보이스 쿼리를 수신할 때, 사용자 디바이스들(102)은 어느 사용자 디바이스(102)가 스트리밍 오디오(118)의 소스에 더 가까운지를 결정하기 위해 근거리 영역(510) 및 원거리 영역(520)을 사용하고, 더 가까운 사용자 디바이스(102)가 보이스 쿼리에 응답할 수 있다.
이제 도 6을 참조하면, 일부 구현예들에서, 위치 지문 모델(120)은 소스 벡터(610)를 포함하는 위치 지문(124)을 생성한다. 소스 벡터(610)는 사용자 디바이스(102)에 대한 스트리밍 오디오(118)의 소스 방향(예: 데카르트(Cartesian) 좌표)을 나타낸다. 여기서, 사용자(10)는 복수의 마이크로폰들(106)에서 사용자 디바이스(102)에 의해 수신된 스트리밍 오디오(118)를 제공한다. 오디오 데이터의 각각의 채널들(119)에 기초하여, 위치 지문 모델(120)은 사용자 디바이스(102)에 대한 사용자(10)의 방향을 나타내는 벡터(610)를 포함하는 위치 지문(124)을 결정한다.
도 7은 시스템(100)의 사용자 디바이스(102) 내의 위치 분류기 모델(130)의 예이다. 위치 분류기 모델(130)은 위치 지문(124)(스트리밍 오디오(118)에 기초함)이 사용자 디바이스(102) 또는 원격 시스템(110)의 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응하는지 여부를 결정하도록 구성된다. 도 7의 예에서, 위치 분류기 모델(130)은 스트리밍 오디오(118)가 단일 소스(즉, 포인트 소스)를 갖는지 또는 다수의 소스들(예: 스피커 시스템 오디오)을 갖는지를 결정하도록 구성된다.
단일 소스 오디오(310)의 오디오 표현을 포함하는 위치 지문(124)을 포함하는 포지티브 트레이닝 예시들(712, 712b)에 대해 트레이닝되는 것 외에도, 위치 분류기 트레이너(710)는 멀티 소스 오디오(310)를 갖는 위치 지문(124)의 네거티브 트레이닝 예시들(712, 712a)에 대해 트레이닝되어 위치 분류기 모델(130)이 단일 소스 인간-생성 발화들(320)과 멀티 소스 인간-생성 발화들(310)(예: 텔레비전(312)에 의해 생성됨) 사이를 구별하도록 가르칠 수 있다. 일부 구현예들에서, 위치 분류기 모델(130)은 네거티브 트레이닝 예시(712a) 및 포지티브 트레이닝 예시(712b)를 사용하여 트레이닝된다. 네거티브 트레이닝 예시(712a)는 위치 분류기 모델(130)이 무시해야 하는(예: 낮은 제1 스코어(134)를 제공하는) 오디오의 샘플이다. 여기서, 사용자(10)에 대해 발생 가능성이 없는 스트리밍 오디오(118)의 추가 프로세싱을 방지하기 위해, 네거티브 트레이닝 예시들(712a)은 멀티 소스 오디오(310)에 대응하는 오디오 샘플들이다. 하나 이상의 네거티브 트레이닝 예시(들)(712a)의 오디오는 그렇지 않으면 추가 프로세싱(예: 핫워드)를 개시할 수 있는 스피치를 포함할 수 있다. 멀티 소스 오디오(310)를 무시함으로써(예: 출력 스코어러(140)에 낮은 제1 스코어(134)를 제공함으로써), 위치 분류기 모델(130)은 오디오 프로세서(150)에 의한 스트리밍 오디오(180)의 추가 프로세싱 개시를 방지한다.
대조적으로, 포지티브 트레이닝 예시(712b)는 인간 스피치의 단일 소스 발화(320)의 오디오 샘플일 수 있다. 위치 분류기 모델(130)은 포지티브 트레이닝 예시들(212b)을 수신하여 위치 분류기 모델(130)이 추가 프로세싱을 개시해야 할 때를 학습한다. 포지티브 트레이닝 예시들(712b)은 추가 프로세싱을 위한 특정 애플리케이션에 대응하는 발화들(예: 핫워드, 쿼리, 명령 등 포함)을 포함할 수 있다.
위치 분류기 모델(130)은 위치 지문(124)의 많은 양태들을 검출하도록 트레이닝될 수 있다. 예를 들어, 위치 분류기 모델(130)은 스트리밍 오디오(118)가 단일 소스인지 멀티 소스인지 여부, 스트리밍 오디오(118)의 소스가 이동 중인지 또는 정적인지, 그리고 스트리밍 오디오(118)의 소스가 사용자 디바이스(102)에 가까운지 또는 사용자 디바이스(102)로부터 멀리 있는지 여부의 일부 또는 전부를 결정할 수 있다. 위치 분류기 모델(130)은 스트리밍 오디오(118)의 소스가 이전 스트리밍 오디오(118)의 소스와 동일한 또는 유사한 방향에 있는지 여부를 결정할 수 있다. 일부 예들에서, 위치 분류기 모델(130) 및/또는 위치 지문 모델(120)은 제1 발화 및 제2 발화가 상이한 소스로부터 발생한 것으로 결정한다. 예를 들어, 시스템을 개시하기 위한 핫워드를 포함하는 발화는 제1 위치에서 발생할 수 있고 후속 쿼리는 제2 위치에서 발생할 수 있다. 이 경우 시스템(100)은 핫워드가 다른 사용자에 의해 "하이재킹(hijacked)"되었다고 결정할 수 있기 때문에 쿼리를 무시하거나 버릴 수 있다.
위치 분류기 모델(130)은 오디오 프로세서(150)의 특정 애플리케이션과 관련된 스트리밍 오디오 소스(118)의 임의의 다른 양태들을 결정할 수 있다. 위치 분류기 모델(130)은 신경 네트워크일 수 있다. 예를 들어, 위치 분류기 모델(130)은 CNN 또는 DNN 또는 이들의 조합이다. 위치 분류기 모델(130)은, 일부 예에서, 위치 지문(124)이 수락되는지(즉, 위치 지문(124)이 특정 애플리케이션의 사용에 대응하는지) 또는 거부되는지(즉, 위치 지문(124)이 특정 애플리케이션의 사용자에 대응하지 않는지)를 나타내는 부울(Boolean)을 생성한다.
도 8은 멀티 채널 보이스 활동 검출을 위한 방법(800)에 대한 예시적인 동작들의 배열 흐름도이다. 방법(800)은, 단계(802)에서, 사용자 디바이스(102)의 데이터 프로세싱 하드웨어(103)에서, 데이터 프로세싱 하드웨어(103)와 통신하는 마이크로폰들(106)의 어레이에 의해 캡처된 스트리밍 멀티 채널 오디오(118)를 나타내는 입력 프레임들(164)의 시퀀스를 수신하는 단계를 포함한다. 스트리밍 멀티 채널 오디오(118)의 각 채널(119)은 마이크로폰들(106)의 어레이에서 별도의 전용 마이크로폰(106)에 의해 캡처된 각각의 오디오 피처들(162)을 포함한다. 단계(804)에서, 방법(800)은 데이터 프로세싱 하드웨어(103)에 의해, 위치 지문 모델(120)을 사용하여, 멀티 채널 오디오(118)의 각 채널(119)의 각각의 오디오 피처들(162)에 기초하여 사용자 디바이스(102)에 대한 멀티 채널 오디오(118)의 소스 위치를 나타내는 위치 지문(124)을 결정하는 단계를 포함한다. 위치 지문(124)은 사용자 디바이스(102)에 대한 멀티 채널 오디오(118)의 소스 방향을 나타낼 수 있다.
단계(806)에서, 방법(800)은 또한 데이터 프로세싱 하드웨어(103)에 의해, 입력으로서 위치 지문(124)을 수신하도록 구성된 애플리케이션-특정 분류기 모델(130)로부터의 출력, 제1 스코어(134)를 생성하는 단계를 포함한다. 제1 스코어(134)는 멀티 채널 오디오(118)가 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응할 가능성을 나타낸다. 단계(808)에서, 방법(800)은 또한 데이터 프로세싱 하드웨어(103)에 의해, 애플리케이션-특정 분류기 모델(130)로부터의 출력으로서 생성된 제1 스코어(134)에 기초하여 특정 애플리케이션에 의한 프로세싱을 위해 멀티 채널 오디오(118)를 수락할지 또는 거부할지 여부를 결정하는 단계를 포함한다.
도 9는 본 문서에 설명된 시스템들 및 방법들을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 디바이스(900)의 개략도이다. 컴퓨팅 디바이스(900)는 랩탑, 데스크탑, 워크스테이션, 퍼스널 디지털 어시스턴트, 서버, 블레이드 서버, 메인프레임 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내도록 의도된다. 여기에 표시된 구성요소, 연결 및 관계, 기능은 예시일 뿐이며 이 문서에서 설명 및/또는 청구된 발명의 구현을 제한하지 않는다.
컴퓨팅 디바이스(900)는 프로세서(910), 메모리(920), 스토리지 디바이스(930), 메모리(920) 및 고속 확장 포트(950)에 연결되는 고속 인터페이스/컨트롤러(940) 및 저속 버스(970) 및 스토리지 디바이스(930)에 연결되는 저속 인터페이스/컨트롤러(960)를 포함한다. 각각의 구성요소들(910, 920, 930, 940, 950, 960)은 다양한 버스를 사용하여 상호 연결되며, 공통 마더보드 또는 적절한 다른 방식으로 마운트될 수 있다. 프로세서(910)는 고속 인터페이스(940)에 결합된 디스플레이(980)와 같은, 외부 입력/출력 디바이스에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이하기 위해 메모리(920) 또는 스토리지 디바이스(930)에 저장된 명령어들을 포함하여, 컴퓨팅 디바이스(900) 내에서 실행하기 위한 명령어들을 프로세싱할 수 있다. 다른 구현예들에서, 다수의 프로세서 및/또는 다수의 버스는 다수의 메모리 및 메모리 유형과 함께 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(900)이 연결될 수 있으며, 각각의 디바이스는 필요한 동작들의 일부를 제공한다(예: 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템).
메모리(920)는 컴퓨팅 디바이스(900) 내에 비일시적으로 정보를 저장한다. 메모리(920)는 컴퓨터 판독가능 매체, 휘발성 메모리 유닛(들) 또는 비휘발성 메모리 유닛(들)일 수 있다. 비일시적 메모리(920)는 컴퓨팅 디바이스(900)에 의한 사용을 위해 일시적 또는 영구적으로 프로그램(예: 명령어들의 시퀀스) 또는 데이터(예: 프로그램 상태 정보)를 저장하는 데 사용되는 물리적 디바이스들일 수 있다. 비휘발성 메모리의 예로는, 플래시 메모리 및 읽기 전용 메모리(ROM) / 프로그래밍 가능한 읽기 전용 메모리(PROM) / 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EPROM) / 전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 부트 프로그램과 같은 펌웨어에 일반적으로 사용됨)가 포함되지만 이에 국한되지 않는다. 휘발성 휘발성 메모리의 예에는 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), 위상 변경 메모리(PCM) 및 디스크나 테이프가 포함되지만 이에 제한되지 않는다.
스토리지 디바이스(930)는 컴퓨팅 디바이스(900)를 위한 대용량 스토리지를 제공할 수 있다. 일부 구현예들에서, 스토리지 디바이스(930)는 컴퓨터 판독가능 매체이다. 다양한 상이한 구현예들에서, 플로피 디스크 디바이스, 하드 디스크 디바이스, 광학 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 기타 유사한 솔리드 스테이트 메모리 디바이스, 스토리지 영역 네트워크(SAN) 또는 기타 구성의 디바이스들을 포함하는 디바이스들의 배열일 수 있다. 추가 구현예들에서, 컴퓨터 프로그램 제품은 정보 매체에 유형적으로 구현된다. 컴퓨터 프로그램 제품은 실행될 때 위에서 설명한 것과 같은 하나 이상의 방법들을 수행하는 명령어들을 포함한다. 정보 매체는 메모리(920), 스토리지 디바이스(930) 또는 프로세서(910) 상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.
고속 컨트롤러(940)는 컴퓨팅 디바이스(900)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 컨트롤러(960)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 의무 할당은 예시일 뿐이다. 일부 구현예들에서, 고속 컨트롤러(940)는 메모리(920), 디스플레이(980)(예: 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(미도시)를 수용할 수 있는 고속 확장 포트(950)에 결합된다. 일부 구현예들에서, 저속 컨트롤러(960)는 스토리지 디바이스(930) 및 저속 확장 포트(990)에 결합된다. 저속 확장 포트(990)는 다양한 통신 포트(예: USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있으며, 예를 들어 네트워크 어댑터를 통해 키보드, 포인팅 디바이스, 스캐너 또는 스위치나 라우터와 같은 네트워킹 디바이스와 같은 하나 이상의 입력/출력 디바이스에 결합될 수 있다.
컴퓨팅 디바이스(900)는 도면에 도시된 바와 같이, 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(900a)로 구현되거나 이러한 서버들(900a)의 그룹에서 여러 번, 랩탑 컴퓨터(900b) 또는 랙 서버 시스템(900c)의 일부로 구현될 수 있다.
여기에 설명된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 및/또는 광학 회로, 집적 회로, 특별히 설계된 ASICs(애플리케이션 특정 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍가능한 시스템 상에서 실행가능 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램들에서의 구현을 포함할 수 있으며, 이는 스토리지 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고 데이터 및 명령어들을 전송하도록 결합된 특수 또는 범용일 수 있다.
소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스가 작업을 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예에서 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 애플리케이션들의 예로는 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지 보수 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션이 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)은 프로그래밍가능한 프로세서에 대한 기계 명령어들을 포함하며, 고급 절차 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, "기계 판독가능 매체" 및 "컴퓨터 판독가능 매체"라는 용어들은 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 프로그램가능한 프로세서에 기계 명령어들 및/또는 데이터를 제공하는 데 사용되는 모든 컴퓨터 프로그램 제품, 비일시적 컴퓨터 판독가능 매체, 장치 및/또는 디바이스((예: 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 의미한다. "기계 판독가능 신호"라는 용어는 프로그램가능한 프로세서에 기계 명령어들 및/또는 데이터를 제공하는 데 사용되는 모든 신호를 의미한다.
본 명세서에 기술된 프로세스 및 논리 흐름은 데이터 프로세싱 하드웨어라고도 지칭되는, 하나 이상의 프로그래밍 가능한 프로세서들에 의해 수행될 수 있으며, 하나 이상의 컴퓨터 프로그램들을 실행하여 입력 데이터에 대해 동작하고 출력을 생성함으로써 기능들을 수행할 수 있다. 프로세스 및 논리 흐름들은 특수 목적 논리 회로, 예를 들어 FPGA(필드 프로그래밍가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)에 의해 수행될 수도 있다. 컴퓨터 프로그램 실행에 적합한 프로세서에는 예를 들어, 범용 및 특수 목적 마이크로프로세서 모두와 모든 종류의 디지털 컴퓨터의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기 전용 메모리나 랜덤 액세스 메모리 또는 둘 다에서 명령어들과 데이터를 수신한다. 컴퓨터의 필수 요소들은 명령어들을 수행하기 위한 프로세서와 명령어들과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 스토리지 디바이스들, 예를 들어 자기, 광자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 데이터를 전송하거나 둘 모두를 포함하거나 작동가능하게 결합될 것이다. 그러나 컴퓨터에는 이러한 디바이스들이 필요하지 않다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스와 같은 반도체 메모리 디바이스; 자기 디스크, 예를 들어 내부 하드 디스크 또는 이동식 디스크; 광자기 디스크; 그리고 CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.
사용자와의 상호작용을 제공하기 위해, 본 발명의 하나 이상의 양태들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스, 예를 들어 CRT(음극선관), LCD(액정 디스플레이) 모니터 또는 터치 스크린 및 선택적으로 키보드 및 포인팅 디바이스, 예를 들어 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있으며, 이를 통해 사용자는 컴퓨터에 입력을 제공할 수 있다. 다른 종류의 디바이스들을 사용하여 사용자와의 상호작용도 제공할 수 있다; 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각적 피드백 또는 촉각적 피드백과 같은 임의의 형태의 감각 피드백일 수 있다; 그리고 사용자로부터의 입력은 음향, 스피치 또는 촉각적 입력을 포함한 모든 형태로 수신될 수 있다. 또한 컴퓨터는 사용자가 사용하는 디바이스와 문서를 주고받음으로써 사용자와 상호 작용할 수 있다; 예를 들어, 웹 브라우저에서 받은 요청에 대한 응답으로 사용자 클라이언트 디바이스의 웹 브라우저에 웹 페이지를 보낼 수 있다.
다수의 구현예들이 설명되었다. 그럼에도 불구하고, 본 발명의 사상 및 범위를 벗어나지 않고 다양한 수정이 이루어질 수 있음이 이해될 것이다. 따라서, 다른 구현예들은 다음 청구 범위 내에 있다.

Claims (26)

  1. 방법으로서,
    사용자 디바이스의 데이터 프로세싱 하드웨어에서, 상기 데이터 프로세싱 하드웨어와 통신하는 마이크로폰들의 어레이에 의해 캡처된 스트리밍 멀티 채널 오디오를 나타내는 입력 프레임들의 시퀀스를 수신하는 단계, 상기 스트리밍 멀티 채널 오디오의 각 채널은 상기 마이크로폰들의 어레이에서 별도의 전용 마이크로폰에 의해 캡처된 각각의 오디오 피처들을 포함하고;
    상기 데이터 프로세싱 하드웨어에 의해, 위치 지문 모델을 사용하여, 상기 멀티 채널 오디오의 각 채널의 각각의 오디오 피처들에 기초하여 상기 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계;
    상기 데이터 프로세싱 하드웨어에 의해, 상기 위치 지문을 입력으로 수신하도록 구성된 애플리케이션-특정 분류기로부터의 출력으로서, 상기 멀티 채널 오디오가 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응할 가능성을 나타내는 제1 스코어를 생성하는 단계; 및
    상기 데이터 프로세싱 하드웨어에 의해, 상기 애플리케이션-특정 분류기로부터의 출력으로서 생성된 제1 스코어에 기초하여 상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 데이터 프로세싱 하드웨어에 의해, 보이스 활동 검출기(VAD) 모델을 사용하여, 상기 멀티 채널 오디오가 인간-유래(human-originated) 스피치에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계를 더 포함하고,
    상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계는, 상기 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어에 더 기초하는, 방법.
  3. 제2항에 있어서,
    상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계는:
    상기 제1 스코어 및 상기 제2 스코어를 합산된 스코어로 합산하는 단계;
    상기 합산된 스코어가 수락 임계값을 만족하는지 여부를 결정하는 단계; 및
    상기 합산된 스코어가 상기 수락 임계값을 만족하는 경우, 상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 수락하는 단계; 또는
    상기 합산된 스코어가 상기 수락 임계값을 만족하지 못하는 경우, 상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 거부하는 단계 중 하나의 단계를 포함하는, 방법.
  4. 제2항에 있어서,
    상기 데이터 프로세싱 하드웨어에 의해, 상기 위치 지문 및 하나 이상의 이전 위치 지문들에 기초하여 집계된 지문을 생성하는 단계;
    상기 데이터 프로세싱 하드웨어에 의해, 상기 집계된 지문을 입력으로 수신하도록 구성된 빔 형성기를 사용하여, 상기 멀티 채널 오디오로부터 오디오 데이터의 단일 채널을 추출하는 단계를 더 포함하고, 상기 추출된 오디오 데이터의 단일 채널은 상기 위치 지문에 의해 나타나는 소스 위치에 대응하는 각각의 오디오 피처들만을 포함하며, 및
    상기 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계는, 상기 VAD 모델에 대한 입력으로서 수신되는 상기 추출된 오디오 데이터의 단일 채널에 기초하여 상기 VAD 모델로부터의 출력으로서 상기 제2 스코어를 생성하는 단계를 포함하는, 방법.
  5. 제4항에 있어서,
    상기 데이터 프로세싱 하드웨어에 의해, 상기 빔 형성기의 신뢰도 레벨에 기초하여 상기 제2 스코어를 조정하는 단계를 더 포함하는, 방법.
  6. 제1항에 있어서,
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 단일 소스 위치를 갖는 오디오 또는 다수의 소스 위치를 갖는 오디오 중 하나를 포함하는, 방법.
  7. 제1항에 있어서,
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 이동 소스 위치를 갖는 오디오 또는 정적 소스 위치를 갖는 오디오 중 하나를 포함하는, 방법.
  8. 제1항에 있어서,
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 근거리 소스 오디오 또는 원거리 소스 오디오 중 하나를 포함하는, 방법.
  9. 제1항에 있어서,
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 포인트 소스 오디오 또는 스피커 시스템 오디오 중 하나를 포함하는, 방법.
  10. 제1항에 있어서,
    상기 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계는, 도달 시간차와 이득 모델을 사용하여 상기 멀티 채널 오디오의 각 채널을 프로세싱하는 단계를 포함하는, 방법.
  11. 제1항에 있어서,
    상기 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계는, 공간 확률 모델을 사용하여 상기 멀티 채널 오디오의 각 채널을 프로세싱하는 단계를 포함하는, 방법.
  12. 제1항에 있어서,
    상기 데이터 프로세싱 하드웨어에 의해, 상기 애플리케이션-특정 분류기로부터의 출력으로서, 상기 위치 지문에 기초하여, 상기 멀티 채널 오디오가 상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형과 상이한 다른 오디오 유형에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계; 및
    상기 데이터 프로세싱 하드웨어에 의해, 동일한 위치 지문을 가진 후속 스트리밍 멀티 채널 오디오를 무시하는 단계를 더 포함하는, 방법.
  13. 제1항에 있어서,
    상기 애플리케이션-특정 분류기는:
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응하는 멀티 채널 오디오를 포함하는 포지티브 트레이닝 샘플들; 및
    상기 특정 애플리케이션이 프로세싱하도록 구성되지 않은 하나 이상의 다른 오디오 유형에 대응하는 멀티 채널 오디오를 포함하는 네거티브 트레이닝 샘플들에 대해 트레이닝되는, 방법.
  14. 시스템으로서,
    사용자 디바이스의 데이터 프로세싱 하드웨어; 및
    상기 데이터 프로세싱 하드웨어와 통신하는 메모리 하드웨어를 포함하고, 상기 메모리 하드웨어는 상기 데이터 프로세싱 하드웨어에서 실행될 때 상기 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 명령어들을 저장하고, 상기 동작들은:
    상기 데이터 프로세싱 하드웨어와 통신하는 마이크로폰들의 어레이에 의해 캡처된 스트리밍 멀티 채널 오디오를 나타내는 입력 프레임들의 시퀀스를 수신하는 단계, 상기 스트리밍 멀티 채널 오디오의 각 채널은 상기 마이크로폰들의 어레이에서 별도의 전용 마이크로폰에 의해 캡처된 각각의 오디오 피처들을 포함하고;
    위치 지문 모델을 사용하여, 상기 멀티 채널 오디오의 각 채널의 각각의 오디오 피처들에 기초하여 상기 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계;
    상기 위치 지문을 입력으로 수신하도록 구성된 애플리케이션-특정 분류기로부터의 출력으로서, 상기 멀티 채널 오디오가 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응할 가능성을 나타내는 제1 스코어를 생성하는 단계; 및
    상기 애플리케이션-특정 분류기로부터의 출력으로서 생성된 제1 스코어에 기초하여 상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계를 포함하는, 시스템.
  15. 제14항에 있어서,
    상기 동작들은:
    보이스 활동 검출기(VAD) 모델을 사용하여, 상기 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계를 더 포함하고,
    상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계는 상기 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어에 더 기초하는, 시스템.
  16. 제15항에 있어서,
    상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 수락할지 또는 거부할지 여부를 결정하는 단계는:
    상기 제1 스코어 및 상기 제2 스코어를 합산된 스코어로 합산하는 단계;
    상기 합산된 스코어가 수락 임계값을 만족하는지 여부를 결정하는 단계; 및
    상기 합산된 스코어가 상기 수락 임계값을 만족하는 경우, 상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 수락하는 단계; 또는
    상기 합산된 스코어가 상기 수락 임계값을 만족하지 못하는 경우, 상기 특정 애플리케이션에 의한 프로세싱을 위해 상기 멀티 채널 오디오를 거부하는 단계 중 하나의 단계를 포함하는, 시스템.
  17. 제15항에 있어서,
    상기 동작들은:
    상기 위치 지문 및 하나 이상의 이전 위치 지문들에 기초하여 집계된 지문을 생성하는 단계;
    상기 집계된 지문을 입력으로 수신하도록 구성된 빔 형성기를 사용하여, 상기 멀티 채널 오디오로부터 오디오 데이터의 단일 채널을 추출하는 단계를 더 포함하고, 상기 추출된 오디오 데이터의 단일 채널은 상기 위치 지문에 의해 나타나는 소스 위치에 대응하는 각각의 오디오 피처들만을 포함하며, 및
    상기 멀티 채널 오디오가 인간-유래 스피치에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계는, 상기 VAD 모델에 대한 입력으로서 수신되는 상기 추출된 오디오 데이터의 단일 채널에 기초하여 상기 VAD 모델로부터의 출력으로서 상기 제2 스코어를 생성하는 단계를 포함하는, 시스템.
  18. 제17항에 있어서,
    상기 동작들은:
    상기 빔 형성기의 신뢰도 레벨에 기초하여 상기 제2 스코어를 조정하는 단계를 더 포함하는, 시스템.
  19. 제14항에 있어서,
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 단일 소스 위치를 갖는 오디오 또는 다수의 소스 위치를 갖는 오디오 중 하나를 포함하는, 시스템.
  20. 제14항에 있어서,
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 이동 소스 위치를 갖는 오디오 또는 정적 소스 위치를 갖는 오디오 중 하나를 포함하는, 시스템.
  21. 제14항에 있어서,
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 근거리 소스 오디오 또는 원거리 소스 오디오 중 하나를 포함하는, 시스템.
  22. 제14항에 있어서,
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형은 포인트 소스 오디오 또는 스피커 시스템 오디오 중 하나를 포함하는, 시스템.
  23. 제14항에 있어서,
    상기 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계는, 도달 시간차와 이득 모델을 사용하여 상기 멀티 채널 오디오의 각 채널을 프로세싱하는 단계를 포함하는, 시스템.
  24. 제14항에 있어서,
    상기 사용자 디바이스에 대한 멀티 채널 오디오의 소스 위치를 나타내는 위치 지문을 결정하는 단계는, 공간 확률 모델을 사용하여 상기 멀티 채널 오디오의 각 채널을 프로세싱하는 단계를 포함하는, 시스템.
  25. 제14항에 있어서,
    상기 동작들은:
    상기 애플리케이션-특정 분류기로부터의 출력으로서, 상기 위치 지문에 기초하여, 상기 멀티 채널 오디오가 상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형과 상이한 다른 오디오 유형에 대응할 가능성을 나타내는 제2 스코어를 생성하는 단계; 및
    동일한 위치 지문을 가진 후속 스트리밍 멀티 채널 오디오를 무시하는 단계를 더 포함하는, 시스템.
  26. 제14항에 있어서,
    상기 애플리케이션-특정 분류기는:
    상기 특정 애플리케이션이 프로세싱하도록 구성된 특정 오디오 유형에 대응하는 멀티 채널 오디오를 포함하는 포지티브 트레이닝 샘플들; 및
    상기 특정 애플리케이션이 프로세싱하도록 구성되지 않은 하나 이상의 다른 오디오 유형에 대응하는 멀티 채널 오디오를 포함하는 네거티브 트레이닝 샘플들에 대해 트레이닝되는, 시스템.
KR1020237016229A 2020-10-22 2021-10-21 멀티 채널 보이스 활동 검출 KR102580828B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237030445A KR20230134613A (ko) 2020-10-22 2021-10-21 멀티 채널 보이스 활동 검출

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/077,679 2020-10-22
US17/077,679 US11380302B2 (en) 2020-10-22 2020-10-22 Multi channel voice activity detection
PCT/US2021/056031 WO2022087251A1 (en) 2020-10-22 2021-10-21 Multi channel voice activity detection

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237030445A Division KR20230134613A (ko) 2020-10-22 2021-10-21 멀티 채널 보이스 활동 검출

Publications (2)

Publication Number Publication Date
KR20230074602A KR20230074602A (ko) 2023-05-30
KR102580828B1 true KR102580828B1 (ko) 2023-09-20

Family

ID=78650071

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237016229A KR102580828B1 (ko) 2020-10-22 2021-10-21 멀티 채널 보이스 활동 검출
KR1020237030445A KR20230134613A (ko) 2020-10-22 2021-10-21 멀티 채널 보이스 활동 검출

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020237030445A KR20230134613A (ko) 2020-10-22 2021-10-21 멀티 채널 보이스 활동 검출

Country Status (6)

Country Link
US (3) US11380302B2 (ko)
EP (1) EP4218014A1 (ko)
JP (1) JP2023546703A (ko)
KR (2) KR102580828B1 (ko)
CN (1) CN116635935A (ko)
WO (1) WO2022087251A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948569B2 (en) * 2021-07-05 2024-04-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
WO2024102518A1 (en) * 2022-11-08 2024-05-16 Qualcomm Incorporated Filtering inputs to a user device
CN116705069B (zh) * 2023-07-31 2023-11-10 北京芯驰半导体科技有限公司 音频检测方法、芯片、交通设备上的部件及交通设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4675381B2 (ja) * 2005-07-26 2011-04-20 本田技研工業株式会社 音源特性推定装置
US20120214544A1 (en) * 2011-02-23 2012-08-23 Shankar Thagadur Shivappa Audio Localization Using Audio Signal Encoding and Recognition
US20150221322A1 (en) * 2014-01-31 2015-08-06 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
US20200349928A1 (en) * 2018-09-27 2020-11-05 Amazon Technologies, Inc. Deep multi-channel acoustic modeling
WO2021145873A1 (en) * 2020-01-15 2021-07-22 Google Llc Small footprint multi-channel keyword spotting

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076459B2 (en) * 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
EP2928211A1 (en) 2014-04-04 2015-10-07 Oticon A/s Self-calibration of multi-microphone noise reduction system for hearing assistance devices using an auxiliary device
US11328733B2 (en) * 2020-09-24 2022-05-10 Synaptics Incorporated Generalized negative log-likelihood loss for speaker verification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4675381B2 (ja) * 2005-07-26 2011-04-20 本田技研工業株式会社 音源特性推定装置
US20120214544A1 (en) * 2011-02-23 2012-08-23 Shankar Thagadur Shivappa Audio Localization Using Audio Signal Encoding and Recognition
US20150221322A1 (en) * 2014-01-31 2015-08-06 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
US20200349928A1 (en) * 2018-09-27 2020-11-05 Amazon Technologies, Inc. Deep multi-channel acoustic modeling
WO2021145873A1 (en) * 2020-01-15 2021-07-22 Google Llc Small footprint multi-channel keyword spotting

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Junzhao et al., "Catch You as I Can: Indoor Localization via Ambient Sound Signature and Human Behavior", Nov. 26, 2013 https://journals.sagepub.eom/doi/full/10.1155/2013/434301 (Year: 2013).*

Also Published As

Publication number Publication date
US11380302B2 (en) 2022-07-05
WO2022087251A1 (en) 2022-04-28
US20240013772A1 (en) 2024-01-11
EP4218014A1 (en) 2023-08-02
US20220310060A1 (en) 2022-09-29
CN116635935A (zh) 2023-08-22
KR20230134613A (ko) 2023-09-21
US11790888B2 (en) 2023-10-17
US20220130375A1 (en) 2022-04-28
JP2023546703A (ja) 2023-11-07
KR20230074602A (ko) 2023-05-30

Similar Documents

Publication Publication Date Title
KR102580828B1 (ko) 멀티 채널 보이스 활동 검출
EP3614377B1 (en) Object recognition method, computer device and computer readable storage medium
US10847171B2 (en) Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR)
US10847162B2 (en) Multi-modal speech localization
US9626970B2 (en) Speaker identification using spatial information
EP3791390A1 (en) Voice identification enrollment
CN113748462A (zh) 确定用于语音处理引擎的输入
US11756572B2 (en) Self-supervised speech representations for fake audio detection
WO2019217101A1 (en) Multi-modal speech attribution among n speakers
JP2023531398A (ja) ホットワードしきい値自動チューニング
US20230169983A1 (en) Speech recognition
KR20240053639A (ko) 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분
US20230223014A1 (en) Adapting Automated Speech Recognition Parameters Based on Hotword Properties
JP2020024310A (ja) 音声処理システム及び音声処理方法
WO2024044586A1 (en) Methods, devices and systems for implementing pinned-state connectionist sequential classification

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right