KR20230011894A

KR20230011894A - 오디오 특징 검출을 위한 기술

Info

Publication number: KR20230011894A
Application number: KR1020220087192A
Authority: KR
Inventors: 하리크리쉬나 무랄리다라; 조지 호세; 지가르 미스트리; 라제쉬 쿠마르 사후; 수브라만예스와라 사이 스리니바스 크루티벤티
Original assignee: 하만인터내셔날인더스트리스인코포레이티드
Priority date: 2021-07-14
Filing date: 2022-07-14
Publication date: 2023-01-25
Also published as: US20230017728A1; EP4120244A1; CN115700877A

Abstract

오디오 특징 검출 모델을 위해 사용자 특정 교란 생성기를 트레이닝하는 것은 사용자의 하나 이상의 포지티브 오디오 샘플을 수신하는 것으로서, 하나 이상의 포지티브 오디오 샘플의 각각은 오디오 특징을 포함하는, 상기 하나 이상의 포지티브 오디오 샘플을 수신하는 것; 사용자의 하나 이상의 네거티브 오디오 샘플을 수신하는 것으로서, 하나 이상의 네거티브 오디오 샘플의 각각은 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는, 상기 하나 이상의 네거티브 오디오 샘플을 수신하는 것; 및 사용자 특정 교란을 생성하기 위해 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 것으로서, 하나 이상의 포지티브 오디오 샘플 및 하나 이상의 네거티브 오디오 샘플에 기초하는, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 것을 포함한다. 사용자 특정 교란으로 사용자의 오디오 샘플을 교란시키는 것은 오디오 특징 검출 모델로 하여금 오디오 특징을 포함하는 오디오 샘플에서 오디오 특징을 인식하게 하고/하거나 오디오 특징을 포함하지 않는 오디오 샘플에서 오디오 특징을 인식하는 것을 억제하게 할 수 있다.

Description

오디오 특징 검출을 위한 기술{TECHNIQUES FOR AUDIO FEATURE DETECTION}

다양한 실시형태는 일반적으로 컴퓨팅 디바이스, 더 구체적으로 오디오 특징 검출에 관한 것이다.

공통적으로 개인 비서 기술(personal assistant technology) 또는 지능형 개인 비서 기술으로서 또한 언급되는 가상 비서 기술은 성장하는 기술 영역이다. 개인 비서 에이전트는 대응하는 개인 비서 서비스와 인터페이스하여 사용자를 위한 다양한 작업 또는 서비스를 수행한다. 사용자는 스마트폰, 스마트 스피커, 또는 차량 내 인포테인먼트 시스템과 같은 디바이스를 통해 개인 비서 에이전트와 상호 작용할 수 있다. 개인 비서 에이전트는 다양한 작업 및 서비스를 수행하기 위해 대응하는 개인 비서 서비스를 통해 다른 디바이스 및/또는 다양한 온라인 리소스(예컨대, 검색 엔진, 데이터베이스, 전자 상거래 사이트, 개인용 캘린더 등)에 연결할 수 있다. 수행될 수 있는 작업의 예는 디바이스 동작, 검색 수행, 구매, 권장 사항 제공, 및 일정 약속 설정 중 하나 이상을 포함한다. 개인 비서 기술의 예는 Amazon.com, Inc.에 의한 ALEXA®, Google LLC에 의한 GOOGLE® ASSISTANT, Apple Inc.에 의한 SIRI® 및 Microsoft Corporation에 의한 CORTANA®를 포함한다.

특정한 개인 비서 에이전트를 구현하는 디바이스는 오디오 입력을 모니터링함으로써 사용자와 인터페이스하도록 구성될 수 있다. 일부 경우에, 디바이스는 사용자에 의해 생성된 오디오 특징의 인스턴스(instance)를 검출하기 위해, 하나 이상의 마이크로폰으로부터의 입력을 모니터링하도록 구성될 수 있으며, 여기서 오디오 트리거(audio trigger)의 인스턴스는 디바이스와 상호 작용하려는 사용자의 의도를 나타낸다. 일부 이러한 경우에, 오디오 트리거는 제조업체에 의해 할당되거나 사용자가 선택한 디바이스 이름과 같은 호출어(wakeword)이거나, 디바이스로 지향된 질의 또는 명령을 나타내는 단어 또는 구일 수 있다. 등록 단계 동안, 디바이스는 사용자의 하나 이상의 포지티브(positive) 오디오 샘플을 사용하여 오디오 트리거 검출 모델을 훈련, 즉, 트레이닝(training)할 수 있으며, 하나 이상의 포지티브 오디오 샘플의 각각은 사용자가 호출어를 반복적으로 말하는 것과 같은 오디오 특징을 포함한다. 검출 단계 동안, 디바이스는 오디오 샘플의 오디오 특징을 인식하기 위해 오디오 특징 검출 모델로 사용자의 오디오 샘플을 프로세싱할 수 있다. 인식에 기초하여, 디바이스는 오디오 샘플을 프로세싱하여 오디오 특징 다음의 오디오에서, 디바이스와의 상호 작용의 일부로서 사용자가 생성한 명령, 요청, 문의 등과 같은 표현의 인스턴스를 검출할 수 있다. 디바이스는 또한 표현을 이해하고 정보를 생성하기 위해 오디오 샘플을 프로세싱하거나 사용자에게 표현에 대한 디바이스의 응답의 완료, 성공, 실패, 등을 나타내거나 정보를 제공하는 오디오 출력을 생성하는 것과 같은, 표현에 기초하여 조치를 취할 수 있다.

이러한 디바이스의 하나의 결점은, 예를 들면, 억양, 방언, 발화 레이트와 같은 말투, 등으로 인해 상이한 사용자가 상이한 방식으로 표현을 말할 수 있다는 점이다. 음성 차이(speech difference)는 지능형 개인 비서 에이전트 인터페이스로 하여금 사용자의 오디오 샘플에서 오디오 특징을 인식하는 것을 실패하게 하고/하거나(즉, 위음성(false negative)) 다른 단어를 오디오 특징으로서 인식하게 할 수 있다(즉, 위양성(false positive)). 예를 들면, 네거티브(negative) 오디오 샘플은 오디오 특징은 포함하지 않지만, 특정한 억양이나 방언으로 말해질 때, 또는 사용자가 발화 레이트, 등과 같은 특정한 말투로 말을 할 때 오디오 특징과 음향적으로 유사한 단어 또는 구를 포함한다. 이러한 경우에, 디바이스는 오디오 특징을 포함하지 않지만 음향적으로 유사한 표현을 포함하는 사용자의 네거티브 오디오 샘플을 수신할 수 있으며 오디오 샘플이 오디오 특징의 인스턴스를 포함한다는 위양성 결정에 도달할 수 있다. 위양성 결정에 기초하여, 디바이스는 사용자에 의한 부가적인 표현의 오디오 입력을 수신하고 또한 샘플링할 수 있으며 사용자를 놀라게 하거나 좌절시킬 수 있는 오디오 응답을 생성할 수 있다.

이상의 내용이 예시하는 바와 같이, 오디오 특징 검출 동안 위음성 및 위양성을 감소시키기 위한 더 효과적인 기술이 필요하다.

일 실시형태는 오디오 특징 검출 모델을 위한 사용자 특정 교란 생성기(user-specific perturbation generator)를 트레이닝하는 컴퓨터 구현 방법을 제시한다. 방법은 사용자의 하나 이상의 포지티브 오디오 샘플을 수신하는 단계를 포함하고, 하나 이상의 포지티브 오디오 샘플의 각각은 오디오 특징을 포함한다. 방법은 또한 사용자의 하나 이상의 네거티브 오디오 샘플을 수신하는 단계를 포함하고, 하나 이상의 네거티브 오디오 샘플의 각각은 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유한다. 방법은 또한 사용자 특정 교란을 생성하기 위해 사용자 특정 교란 생성기 모델을 적대적으로(adversarially) 트레이닝하는 단계를 포함하고, 트레이닝 단계는 하나 이상의 포지티브 오디오 샘플 및 하나 이상의 네거티브 오디오 샘플에 기초한다. 방법에 기초하여, 사용자 특정 교란을 통한 사용자의 오디오 샘플의 교란은 오디오 특징 검출 모델로 하여금 오디오 특징을 포함하는 사용자의 오디오 샘플에서 오디오 특징을 인식하게 하고 오디오 특징을 포함하지 않는 사용자의 오디오 샘플에서 오디오 특징을 인식하는 것을 억제하게 한다.

추가의 실시형태는, 무엇보다도, 상기 제시된 방법을 구현하도록 구성된 시스템 및 비일시적 컴퓨터 판독 가능한 매체를 제공한다.

또 다른 실시형태는 사용자와 디바이스 사이의 상호 작용을 결정하는 시스템을 제시한다. 시스템은 명령어를 저장하는 메모리를 포함한다. 시스템은 사용자로부터 오디오 샘플을 수신하는 단계, 사용자와 연관된 사용자 특정 교란을 수신하는 단계, 및 오디오 샘플이 오디오 샘플 및 사용자 특정 교란에 기초하여 오디오 특징을 포함하는지의 여부를 결정하는 단계를 수행하는 명령어를 실행하는 하나 이상의 프로세서를 포함한다.

추가의 실시형태는 무엇보다도, 상기 제시된 시스템을 구현하도록 구성된 컴퓨터 구현 및 비일시적 컴퓨터 판독 가능한 매체를 제공한다.

종래 기술에 비해 개시된 기술의 적어도 하나의 기술적 장점은 개시된 기술을 사용하여, 지능형 개인 비서와 같은 디바이스가 오디오 특징을 포함하는 사용자의 하나 이상의 포지티브 오디오 샘플과 사용자의 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는 사용자의 네거티브 오디오 샘플 사이의 음향 유사성으로 인해, 사용자의 오디오 샘플에서 오디오 특징을 인식하는 감소된 위음성 레이트 및/또는 오디오 특징을 포함하지 않는 사용자의 네거티브 오디오 샘플에서 오디오 특징을 인식하는 위양성 레이트를 나타낸다는 것이다. 감소된 위음성 레이트는 사용자에 대한 디바이스의 응답성을 개선할 수 있다. 감소된 위양성 레이트는 디바이스의 배터리 수명이나 불필요한 프로세싱을 절약할 수 있다. 게다가, 사용자가 의도하지 않을 때 디바이스가 사용자의 말을 듣고 응답하는 레이트가 감소하기 때문에 사용자와 지능형 개인 비서 사이의 상호 작용이 개선되어, 더 높은 신뢰도의 사용자 경험을 야기한다. 이 기술적 장점은 종래 기술 접근법에 비해 하나 이상의 기술적 개선을 제공한다.

다양한 실시형태의 상기 인용된 특징이 상세하게 이해될 수 있는 방식으로, 상기 간략하게 요약된 독창적인 개념의 더 특정한 설명은 다양한 실시형태를 참조함으로써 취해질 수 있고, 이중 일부는 첨부된 도면에 도시된다. 그러나, 첨부된 도면이 독창적인 개념의 전형적인 실시형태만 도시하고 따라서, 임의의 방식으로 범위를 제한하는 것으로 간주되어서는 안되며, 다른 동등하게 효과적인 실시형태가 존재한다는 점에 유의해야 한다.
도 1은 다양한 실시형태의 하나 이상의 양태를 구현하도록 구성된 컴퓨팅 디바이스를 도시한 도면;
도 2a는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자 특정 오디오 샘플 교란을 생성하기 위한 사용자 특정 교란 생성기 모델의 적대적 트레이닝의 제1 예의 블록도;
도 2b는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자 특정 교란 생성기 모델에 의해 생성된 사용자 특정 오디오 샘플 교란에 의해 교란된 오디오 샘플의 표현을 프로세싱하는 오디오 특징 검출 모델의 제1 예의 블록도;
도 3a는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자 특정 내부 표현 교란을 생성하기 위한 사용자 특정 교란 생성기 모델의 적대적 트레이닝의 제2 예의 블록도;
도 3b는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자 특정 교란 생성기 모델에 의해 생성된 사용자 특정 내부 표현 교란에 의해 교란된 오디오 샘플의 내부 표현을 프로세싱하는 오디오 특징 검출 모델의 제2 예의 블록도;
도 4는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자 특정 교란 생성기를 트레이닝하기 위한 방법 단계의 흐름도;
도 5는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자와 디바이스 사이의 상호 작용을 결정하기 위한 방법 단계의 흐름도;
도 6은 다양한 실시형태의 하나 이상의 부가적인 양태에 따른, 사용자 특정 교란 생성기를 트레이닝하기 위한 방법 세트의 흐름도; 및
도 7은 다양한 실시형태의 하나 이상의 부가적인 양태에 따른, 사용자와 디바이스 사이의 상호 작용을 결정하기 위한 방법 단계의 흐름도.

다음 설명에서, 다양한 실시형태의 더 완전한 이해를 제공하기 위해 다수의 특정 상세가 제시된다. 그러나, 독창적인 개념이 이 특정 상세 중 하나 이상 없이 실시될 수 있다는 것이 당업자에게 명백할 것이다.

도 1은 다양한 실시형태의 하나 이상의 양태를 구현하도록 구성된 컴퓨팅 디바이스(100)를 도시한다. 컴퓨팅 디바이스(100)는 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트폰, 개인 휴대용 정보 단말기(PDA), 태블릿 컴퓨터, 스마트 스피커, 또는 다양한 실시형태의 하나 이상의 양태를 실행하기 위해 적합한 임의의 다른 유형의 컴퓨팅 디바이스일 수 있다. 일부 실시형태에서, 컴퓨팅 디바이스(100)는 지능형 개인 비서이다. 본 명세서에서 설명된 컴퓨팅 디바이스가 예시적이며 임의의 다른 기술적으로 실현 가능한 구성이 다양한 실시형태의 범위에 있다는 점에 유의한다.

도시된 바와 같이, 컴퓨팅 디바이스(100)는 제한 없이, 하나 이상의 프로세서(들)(102)를 연결하는 상호 연결부(버스)(112), 하나 이상의 입력/출력(I/O) 디바이스(108)에 결합된 입력/출력(I/O) 디바이스 인터페이스(104), 메모리(116), 저장 장치(114), 및 네트워크 인터페이스(106)를 포함한다. 프로세서(들)(102)는 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 주문형 반도체(ASIC), 필드 프로그래밍 가능한 게이트 어레이(FPGA), 디지털 신호 프로세서(DSP), 및/또는 임의의 다른 유형의 처리 장치, 또는 GPU와 결부하여 동작하도록 구성된 CPU와 같은 상이한 처리 장치의 조합과 같은 임의의 적합한 프로세서일 수 있다. 일반적으로, 프로세서(들)(102)는 데이터를 프로세싱하고/하거나 소프트웨어 애플리케이션을 실행할 수 있는 임의의 기술적으로 실행 가능한 하드웨어 유닛일 수 있다.

I/O 디바이스(108)는 키보드, 마우스, 터치 감지 스크린, 등과 같은 입력을 제공할 수 있는 디바이스뿐만 아니라, 디스플레이 디바이스와 같은, 출력을 제공할 수 있는 디바이스를 포함할 수 있다. 일부 실시형태에서, I/O 디바이스(108)는 오디오 스피커(132)(및/또는 헤드폰과 같은 유사한 오디오 출력 디바이스), 마이크로폰(134), 디스플레이 디바이스(136), 및 하나 이상의 물리적 제어부(138)(예컨대, 하나 이상의 물리적 버튼, 하나 이상의 터치스크린 버튼, 하나 이상의 물리적 회전 노브 등)를 포함한다. 부가적으로, I/O 디바이스(108)는 터치스크린, 범용 직렬 버스(USB) 포트, 등과 같은 입력을 수신하고 출력을 제공할 수 있는 디바이스를 포함할 수 있다. I/O 디바이스(108)는 컴퓨팅 디바이스(100)의 사용자로부터 다양한 유형의 입력을 수신(예컨대, 마이크로폰(134)을 통해 음성 입력과 같은 오디오 입력을 수신)하도록 구성될 수 있다. I/O 디바이스(108)는 또한 디스플레이 디바이스(136)의 디스플레이된 디지털 이미지 또는 디지털 비디오 또는 텍스트 및/또는 오디오 스피커(132)를 통한 출력 오디오와 같은, 다양한 유형의 출력을 컴퓨팅 디바이스(100)의 최종 사용자에게 제공할 수 있다. 일부 실시형태에서, I/O 디바이스(108) 중 하나 이상은 제1 컴퓨팅 디바이스(100)를 제2 디바이스(도시되지 않음)에 결합하도록 구성된다. 예를 들면, I/O 디바이스(108)는 또 다른 디바이스(예컨대, 스마트폰)로/로부터의 무선 및/또는 유선 인터페이스(예컨대, 블루투스 인터페이스, 범용 직렬 버스 인터페이스)를 포함할 수 있다.

저장 장치(114)는 애플리케이션 및 데이터를 위한 비휘발성 저장 장치를 포함할 수 있고 고정 또는 탈착 가능한 디스크 드라이브, 플래시 메모리 디바이스, 및 CD-ROM, DVD-ROM, 블루레이, HD-DVD, 또는 다른 자기, 광학, 또는 고체 상태 저장 디바이스를 포함할 수 있다. 부가적으로, 일부 실시형태에서, 오디오 샘플의 데이터베이스, 텍스트 대 음성 변환을 위한 음소의 데이터베이스, 및 음성 인식 및/또는 음성 대 텍스트 변환을 위한 트레이닝 데이터와 같은 하나 이상의 데이터 저장소가 저장 장치(114)에 저장될 수 있다.

메모리(116)는 랜덤 액세스 메모리(RAM) 모듈, 플래시 메모리 유닛, 또는 임의의 다른 유형의 메모리 유닛 또는 이의 조합을 포함할 수 있다. 프로세서(들)(102), 입력/출력(I/O) 디바이스 인터페이스(104), 및 네트워크 인터페이스(106)는 메모리(116)로부터 데이터를 판독하고 이에 데이터를 기록하도록 구성된다. 메모리(116)는 소프트웨어 프로그램과 연관된 애플리케이션 데이터 및 프로세서(들)(102)에 의해 실행될 수 있는 다양한 소프트웨어 프로그램(예컨대, 운영 체제, 하나 이상의 애플리케이션)을 포함한다.

일부 실시형태에서, 컴퓨팅 디바이스(100)는 하나 이상의 원격 디바이스(140)를 포함할 수 있는 네트워크(들)(110)를 또한 포함하는 컴퓨팅 네트워크 환경(101)에 포함된다. 네트워크(들)(110)는 컴퓨팅 디바이스(100)와 웹 서버, 또는 다른 네트워크로 연결된 컴퓨팅 디바이스 또는 시스템과 같은 외부 개체 또는 디바이스 사이에 데이터가 교환되는 것을 허용하는 임의의 기술적으로 실행 가능한 유형의 통신 네트워크일 수 있다. 예를 들면, 네트워크(들)(110)는 다른 것 중에서, 광역 통신망(WAN), 근거리 통신망(LAN), 무선 네트워크(예컨대, 와이파이 네트워크), 및/또는 인터넷을 포함할 수 있다. 컴퓨팅 디바이스(100)는 네트워크 인터페이스(106)를 통해 네트워크(들)(110)와 연결할 수 있다. 일부 실시형태에서, 네트워크 인터페이스(106)는 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합이며, 이는 네트워크(들)(110)에 연결하고 이와 인터페이스하도록 구성된다.

일부 실시형태에서, 컴퓨팅 디바이스(100)는 컴퓨팅 디바이스(100)로부터 멀리 있는 하나 이상의 클라우드 컴퓨팅 시스템(예컨대, 서버 시스템)을 제공하는 하나 이상의 원격 디바이스(140)와 상호 작용할 수 있다. 컴퓨팅 디바이스(100)는 사용자로부터 요청을 수신하고 사용자로부터의 요청에 응답하여 하나 이상의 작업을 수행할 수 있다. 컴퓨팅 디바이스(100)에 의해 단독으로 또는 하나 이상의 원격 디바이스(140)와 협력하여 수행될 수 있는 작업의 예는, 제한 없이, 사용자 질의에 응답하여 (예컨대, 검색 엔진 또는 데이터베이스를 통해) 검색 결과 또는 답변을 얻는 것, 하나 이상의 리소스(도시되지 않음)에 액세스하여 데이터를 얻는 것(예컨대, 이메일 메시지를 얻음, 캘린더 이벤트를 얻음, 할 일 목록 항목을 얻음), 하나 이상의 리소스에서 데이터를 생성 또는 수정하는 것(예컨대, 이메일 메시지를 작성함, 캘린더 이벤트를 수정함, 할 일 목록 항목을 제거함), 및 특정 동작을 수행하거나 특정 기능(예컨대, 스마트 온도 조절기에 난방 설정점을 조정하도록 지시함, 스피커에 노래를 재생하도록 지시함)을 실행하기 위한 명령어를 디바이스에 발행하는 것을 포함한다.

일부 실시형태에서, 컴퓨팅 디바이스(100)는 컴퓨팅 디바이스(100)가 사용자와 상호 작용하는 것을 가능하게 하는 오디오 프로세싱 애플리케이션(142)을 포함할 수 있다. 예를 들면, 오디오 프로세싱 애플리케이션(142)은 오디오 포맷의 요청(예컨대, 요청의 오디오 샘플)을 수신하고 사용자에게 출력될 오디오 샘플(및/또는 오디오 샘플과 연관된 데이터)을 포함하는 응답을 반환할 수 있다. 제1 예로서, 사용자는 요청을 포함하는 음성 입력을 발행할 수 있다. 컴퓨팅 디바이스(100)는 요청을 포함하는 오디오 샘플을 수신할 수 있다. 컴퓨팅 디바이스(100)는 그 다음, 예를 들면, 오디오 샘플에서 오디오 특징을 검출하고 오디오 출력(예컨대, 오디오 출력, 텍스트 대 음성 출력)을 포함하는 대응하는 응답을 반환하도록 트레이닝될 수 있는 오디오 프로세싱 애플리케이션(142)의 오디오 특징 검출 모델(144)을 사용하여 요청을 프로세싱할 수 있다. 제2 예로서, 사용자는 요청을 포함하는 음성 입력을 발행할 수 있고, 음성 입력은 음성 대 텍스트 모듈에 의해 텍스트로 변환될 수 있다. 컴퓨팅 디바이스(100)는 그 다음, 텍스트 요청을 프로세싱하고 사용자에게 출력되는 텍스트를 포함하는 응답을 반환할 수 있다. 요청을 수신하고/하거나 응답을 반환할 수 있는 하나의 이러한 오디오 프로세싱 애플리케이션(142)은 이전에 논의된 바와 같이, 지능형 개인 비서이다. 다른 예는, 예를 들면, 음성 지원 매체 차량 인터페이스; 오디오 및/또는 비디오 프리젠테이션 디바이스와 같은 음성 지원 매체 시스템; 음성 지원 게임 콘솔; 음성 지원 착용 가능한 디바이스, 등을 포함한다.

일부 시나리오에서, 디바이스는 하나 이상의 특징이 디바이스에 의해 인식될 수 있는 음성 입력과 같은 오디오 샘플을 수신할 수 있다. 예를 들면, 사용자는 호출어를 말하여 사용자가 디바이스에 지시한 요청 또는 명령의 단어, 구 또는 표현의 시작 부분에서와 같은, 대기 모드로부터 디바이스를 활성화할 수 있다. 디바이스는 오디오 샘플의 오디오 특징을 인식하기 위해 오디오 입력(예컨대, 하나 이상의 마이크로폰에 의해 수신된 것과 같음)을 모니터링할 수 있으며 오디오 특징 및 선택적으로, 호출어 및 호출어 앞이나 뒤에 오는 하나 이상의 단어와 같은, 오디오 샘플의 다른 특징의 검출에 기초하여 또 다른 프로세싱을 수행할 수 있다. 디바이스는 (예를 들면) 오디오 입력의 오디오 샘플의 파형과 검출될 오디오 특징의 파형을 비교하기 위해 주파수 분석, 및/또는 오디오 샘플에서 음소의 시퀀스를 검출하며 시퀀스를 검출될 오디오 특징의 단음의 시퀀스와 비교하기 위해 음성 분석을 사용하는 것과 같은, 이러한 검출을 수행하기 위해 다양한 기술을 사용할 수 있다. 이러한 비교가 검출될 오디오 특징 및 오디오 샘플이 유사함을 나타내면(예컨대, 유사성 역치 내에서), 디바이스는 오디오 샘플이 오디오 특징을 포함한다고 결정할 수 있다. 게다가, 디바이스는 질의를 결정하고 질의에 대한 응답을 생성하고 전달하기 위해 사용자의 자연어 표현을 프로세싱하는 것과 같은, 오디오 특징의 검출에 응답할 수 있다.

특히, 디바이스는 하나 이상의 포지티브 오디오 샘플에 기초하여 오디오 특징을 검출하도록 트레이닝된 오디오 특징 검출 모델(144)을 포함할 수 있으며, 하나 이상의 포지티브 오디오 샘플의 각각은 오디오 특징을 포함한다. 예를 들면, 순환 신경망(RNN)과 같은 기계 학습 모델은 개인(전형적인 사용자와 같음)이 호출어를 말하는 하나 이상의 포지티브 오디오 샘플의 세트로 트레이닝될 수 있다. 하나 이상의 라벨은 각각의 포지티브 오디오 샘플(예컨대, 오디오 특징이 발생하는 각각의 포지티브 오디오 샘플의 일부의 시작, 끝, 길이 및/또는 지속시간) 내에서 오디오 특징의 인스턴스를 식별할 수 있다. 기계 학습 모델은 하나 이상의 포지티브 오디오 샘플 및 라벨에 기초하여 하나 이상의 포지티브 오디오 샘플의 각각에서 오디오 특징의 검출을 나타내는 출력을 생성하도록 트레이닝될 수 있다. 부가적으로, 네거티브 샘플(예컨대, 사용자가 호출어를 말하지 않는 오디오 샘플)에 오디오 샘플이 특징을 포함하지 않음을 나타내는 라벨이 제공될 수 있다. 기계 학습 모델은 하나 이상의 네거티브 오디오 샘플의 각각 및 대응하는 라벨에 기초하여, 하나 이상의 네거티브 오디오 샘플의 각각에서 오디오 특징의 검출을 나타내지 않는 출력을 생성하도록 트레이닝될 수 있다. 성공적인 트레이닝 후에, 오디오 특징 검출 모델(144)은 라벨링되지 않은 오디오 샘플(예컨대, 호출어와 같은 오디오 특징을 포함할 수 있거나 포함하지 않을 수 있는, 하나 이상의 마이크로폰에 의해 수신된 사용자의 라벨링되지 않은 오디오 샘플)에서 오디오 특징의 발생을 검출하기 위해 오디오 샘플을 프로세싱하고, 라벨링되지 않은 오디오 샘플을 트레이닝에 기초하여 특징을 포함하거나 포함하지 않는 것으로 분류하도록 배치될 수 있다. 본 명세서에서 설명된 오디오 특징 검출 모델(144)이 예시적이며 오디오 샘플에서 오디오 특징을 검출하기 위한 임의의 다른 기술적으로 실현 가능한 기술이 다양한 실시형태의 범위 내에 있다는 점에 유의한다.

오디오 특징 검출 모델(144)에 대한 제1 문제는 사용자가 오디오 특징을 포함하는 오디오 샘플을 제공하지만, 사용자의 음성의 양태로 인해, 디바이스가 오디오 샘플에서 오디오 특징을 검출하는데 실패하는 위음성의 발생이다. 예를 들면, 디바이스는 제1 개인(전형적인 사용자와 같음)이 말한 바와 같이 호출어의 파형을 저장할 수 있으며 호출어의 파형을 제2 개인(디바이스의 특정 사용자와 같음)의 오디오 샘플의 파형과 비교할 수 있다. 제2 개인이 제1 개인과 상이하게 호출어를 말하는 경우 예를 들면, 억양, 지역 방언, 특정 말투(예컨대, 레이트, 음량, 또는 피치), 등으로 말하는 경우, 오디오 특징 검출 모델(144)은 (검출될 오디오 특징으로서) 제1 개인이 말한 호출어의 파형이 (디바이스의 사용자의 오디오 샘플과 같음) 제2 개인의 오디오 샘플의 파형과 유사하지 않다고 결정할 수 있다. 위음성 검출로 인해, 디바이스가 오디오 샘플에서 오디오 특징을 검출하는데 실패할 수 있고 사용자의 오디오 샘플에 응답하는데 실패할 수 있다. 결과적으로, 사용자는 디바이스로부터 응답을 수신하기 위해 오디오 샘플을 반복해야 할 수 있다(예컨대, 호출어를 반복함).

오디오 특징 검출 모델(144)에 대한 제2 문제는 사용자의 음성의 양태로 인해, 디바이스가 오디오 특징을 제공할 의도가 없었던 사용자의 오디오 샘플에서 오디오 특징을 검출하는 위양성의 발생이다(예컨대, 디바이스와 상호 작용하기 위해 호출어를 말할 의도가 없었던 개인의 음성에서 호출어를 인식함). 예를 들면, 사용자는 오디오 특징(예컨대, 호출어)을 포함하지 않는 오디오 샘플을 제공할 수 있지만, 대신에 오디오 샘플에서 검출될 오디오 특징과 음향적으로 유사한(예컨대, 이의 음향 유사성 역치 내에 있음) 유사한 단어 또는 구를 포함한다. 일부 경우에, 이 음향 유사성은 사용자의 오디오 샘플이 호출어와 같은 검출될 오디오 특징과 음향적으로 유사한 억양, 지역 방언, 특정 말투(예컨대, 레이트, 음량, 또는 피치) 등으로 인해 발생할 수 있다. 결과적으로, 오디오 특징 검출 모델(144)은 사용자의 오디오 샘플의 파형 및/또는 음성 시퀀스와 검출될 오디오 특징의 파형 및/또는 음성 시퀀스가 음향적으로 유사하다고 결정할 수 있고(예컨대, 음향 유사성 역치 내에 있음), 오디오 샘플이 검출될 오디오 특징을 포함한다고 잘못 결정할 수 있다. 위양성 결정으로 인해, 디바이스는 사용자의 오디오 입력을 수신하고 또한 샘플링할 수 있으며 오디오 입력에 대한 응답을 생성할 수 있다. 사용자가 (예컨대, 호출어를 말함으로써) 의도적으로 오디오 특징을 제공하지 않았으며 디바이스와 상호 작용할 의도가 없기 때문에, 디바이스의 응답은 사용자를 놀라게 하거나 좌절시킬 수 있다.

이 문제를 해결하기 위해, 일부 실시형태에서, 기계 학습 모델은 사용자의 하나 이상의 포지티브 오디오 샘플, 오디오 특징을 포함하는 하나 이상의 포지티브 오디오 샘플의 각각, 및 하나 이상의 포지티브 오디오 샘플 중 하나 이상과 음향 유사성을 공유하는 사용자의 하나 이상의 네거티브 오디오 샘플에 기초하여 트레이닝될 수 있다. 예를 들면, 음향 유사성은 파형 차이 역치 내에 있는 하나 이상의 네거티브 오디오 샘플의 파형과 하나 이상의 포지티브 오디오 샘플의 파형 간의 차이, 또는 편집 거리와 같은, 음성 시퀀스 차이 역치 내에 있는 하나 이상의 네거티브 오디오 샘플의 음성 시퀀스와 하나 이상의 포지티브 오디오 샘플의 음성 시퀀스 간의 차이일 수 있다.

일부 실시형태에서, 디바이스는 사용자의 오디오 샘플의 표현에 적용될 수 있는 사용자 특정 교란을 생성할 수 있다. 예를 들면, 디바이스는 사용자에게 오디오 특징의 하나 이상의 포지티브 오디오 샘플(예컨대, 호출어를 말하는 하나 이상의 인스턴스)을 제공하고, 하나 이상의 포지티브 오디오 샘플(예컨대, 호출어와 상이하지만, 사용자의 억양, 지역 방언, 말투, 등으로 인해 호출어와 음향적으로 유사한 단어를 말하는 하나 이상의 인스턴스) 중 적어도 하나와 음향 유사성을 공유하는 하나 이상의 네거티브 오디오 샘플을 제공하도록 요청할 수 있다. 사용자 특정 교란 생성기 모델(146)은 사용자의 오디오 샘플의 표현에 적용(예컨대, 이와 조합)될 때, 교란된 표현을 생성하는 사용자 특정 교란을 생성하도록 트레이닝될 수 있다. 오디오 특징 검출 모델(144)은 오디오 특징을 인식하고 오디오 특징을 포함하지 않는 네거티브 오디오 샘플에서 오디오 특징을 인식하는 것을 억제하기 위해 오디오 샘플의 교란된 표현을 프로세싱할 수 있다. 디바이스는 오디오 특징 검출 모델(144)의 출력을 사용하여 (예컨대, 오디오 특징을 포함하는 것으로 결정되는 오디오 샘플에 대한 응답을 생성 및 제공함으로써) 오디오 샘플에 응답할지 또는 (예컨대, 오디오 특징을 포함하지 않는 것으로 결정되는 오디오 샘플에 응답하는 것을 억제함으로써) 오디오 샘플에 응답하는 것을 억제할지의 여부를 결정할 수 있다. 그에 따라, 디바이스는 일부 실시형태에 따라, 사용자의 억양, 지역 방언, 말투, 등을 고려하여 사용자의 오디오 샘플에 포함된 오디오 특징을 더 정확하고 선택적으로 검출하고 이에 응답할 수 있다.

도 1은 일 실시형태의 하나의 예만을 도시하고 다른 실시형태가 실시형태의 범위를 벗어나지 않고 변경될 수 있다는 것을 인식해야 한다. 예를 들면, 도 1의 컴퓨팅 디바이스(100)는 오디오 특징 검출 모델(144) 및 사용자 특정 교란 생성기 모델(146)을 저장하는 메모리(116)를 포함한다. 제1 예시적인 변형으로서, 다른 실시형태는 제1 메모리에 오디오 특징 검출 모델(144)의 전부 또는 일부를 그리고 제2 메모리에 사용자 특정 교란 생성기 모델(146)을 구현할 수 있다. 제2 예시적인 변형으로서, 다른 실시형태는 오디오 특징 검출 모델(144)의 전부 또는 일부, 및/또는 사용자 특정 교란 생성기 모델(146)의 전부 또는 일부를 신경 프로세싱 회로와 같은 이산 회로망으로서 구현할 수 있다. 제3 예시적인 변형으로서, 다른 실시형태는 오디오 특징 검출 모델(144)과 사용자 특정 교란 생성기 모델(146)을 조합하는 하나의 기계 학습 모델을 포함할 수 있다. 제4 예시적인 변형으로서, 사용자 특정 교란 생성기 모델(146) 및/또는 오디오 특징 검출 모델(144)의 전부 또는 일부는 하나 이상의 원격 디바이스(140)와 같은 상이한 디바이스에서 구현될 수 있다.

도 2a는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자 특정 오디오 샘플 교란을 생성하기 위한 사용자 특정 교란 생성기 모델(146-1)의 제1 적대적 트레이닝(208-1)의 블록도이다. 일부 실시형태에서, 사용자 특정 교란 생성기 모델(146-1)은 도 1에 도시된 바와 같이 사용자 특정 교란 생성기 모델(146)로서 사용될 수 있다. 사용자 특정 오디오 샘플 교란(212-1)은 오디오 특징 검출 모델(144-1)에 의해 프로세싱될 수 있고, 이는, 예를 들면, 도 1의 컴퓨팅 디바이스(100)에 포함된 오디오 특징 검출 모델(144-1)일 수 있다.

도 2a에 도시된 바와 같이, 사용자(200)는 하나 이상의 포지티브 오디오 샘플(204)을 포함하는 트레이닝 오디오 샘플(202)의 세트를 제공하고, 하나 이상의 포지티브 오디오 샘플(204)의 각각은 오디오 특징(206)을 포함한다. 예를 들면, 오디오 특징(206)은 호출어의 인스턴스, 컴퓨팅 디바이스(100)로 지향된 질의 또는 명령을 나타내는 단어 또는 구의 인스턴스, 등일 수 있다. 사용자(200)는 또한 오디오 특징을 포함하지 않지만, 하나 이상의 포지티브 오디오 샘플(204) 중 하나 이상과 음향 유사성을 공유하는 하나 이상의 네거티브 오디오 샘플(208)을 제공한다. 예를 들면, 하나 이상의 네거티브 오디오 샘플(208)의 각각은 호출어와 상이하지만, 호출어와 음향적으로 유사한 단어 또는 구일 수 있거나 이를 포함할 수 있다(예컨대, 여기서 하나 이상의 포지티브 오디오 샘플의 파형과 하나 이상의 네거티브 오디오 샘플의 파형 간의 차이는 파형 차이 역치 내에 있다).

일부 실시형태에서, 트레이닝 오디오 샘플(202) 예를 들면, 선택된 호출어 및 호출어와 상이하지만, 음향적으로 유사한 하나 이상의 단어는 등록 동안 사용자(200)에 대해 선택될 수 있다. 일부 실시형태에서, 선택은 사용자(200)의 인구통계학적 특징과 같은, 사용자(200)의 더 많은 특징 중 하나에 기초할 수 있다. 제1 이러한 예로서, 트레이닝 오디오 샘플(202)은 사용자(200)와 유사한 인구통계학적 특징을 갖는 개인이 호출어로 하여금 검출하기 어렵게 할 수 있는 억양, 지역 방언, 말투, 등으로 호출어를 종종 말한다는 결정에 기초하여 선택될 수 있다. 제2 이러한 예로서, 트레이닝 오디오 샘플(202)은 사용자(200)와 유사한 인구통계학적 특징을 가진 개인이 호출어와 상이하지만, 억양, 지역 방언, 말투, 등으로 인해 호출어처럼 들릴 수 있는 특정한 단어를 종종 말한다는 결정에 기초하여 선택될 수 있다. 일부 실시형태에서, 하나 이상의 포지티브 오디오 샘플(204)과 하나 이상의 네거티브 오디오 샘플(208) 사이의 음향 유사성은 하나 이상의 포지티브 오디오 샘플(204) 중 제1 포지티브 오디오 샘플의 주파수 스펙트럼과 하나 이상의 네거티브 오디오 샘플(208) 중 제1 네거티브 오디오 샘플의 주파수 스펙트럼 간의 주파수 스펙트럼 차이이거나 이를 포함할 수 있고, 주파수 스펙트럼 차이는 주파수 스펙트럼 차이 역치 내에 있다. 대안적으로 또는 부가적으로, 일부 실시형태에서, 하나 이상의 포지티브 오디오 샘플(204)과 하나 이상의 네거티브 오디오 샘플(208) 사이의 음향 유사성은 하나 이상의 포지티브 오디오 샘플(204) 중 제1 포지티브 오디오 샘플의 음소 시퀀스와 하나 이상의 네거티브 오디오 샘플(208) 중 제1 네거티브 오디오 샘플의 음소 시퀀스 간의 음소 시퀀스 차이일 수 있거나 이를 포함할 수 있고, 음소 시퀀스 차이는 음소 시퀀스 차이 역치 내에 있다.

일부 실시형태에서, 사용자에 의해 제공될 트레이닝 오디오 샘플(202)은 미리 선택될 수 있다. 제1 예로서, 개발자는 (예컨대, 일반 사용자 사이 또는 유사한 인구통계학적 특징을 갖는 하나의 서브세트의 사용자 사이에, 호출어에 대한 위양성을 야기한 오디오 샘플을 평가한 것에 기초하여) 호출어와 음향적으로 유사한 단어 또는 구의 세트를 결정할 수 있다. 제2 예로서, 언어학자는 호출어와 음향적으로 유사한 단어 또는 구(예컨대, 일반적으로 또는 단어 또는 구가 인구통계학적 특징이 유사한 하나의 서브세트의 사용자에 의해 말해질 때, 호출어의 음소 시퀀스와 유사할 가능성이 있는 음소 시퀀스를 갖는 단어 또는 구)의 세트를 식별할 수 있다. 이 및 다른 예에서, 컴퓨팅 디바이스(100)의 메모리(116) 또는 저장 장치(114)는 인구통계학적 프로파일과 매칭하는 사용자(200)(예컨대, 특정 지리적 영역에 위치되고/되거나 특정한 언어를 말하는 사용자(200))를 등록하기 위해 사용될 미리 결정된 트레이닝 오디오 샘플(202)의 세트를 저장할 수 있다. 컴퓨팅 디바이스(100)는 오디오 특징(206)을 포함하는 하나 이상의 포지티브 오디오 샘플(204) 중 적어도 하나와 음향 유사성을 공유하는 하나 이상의 네거티브 오디오 샘플(208)의 저장된 세트로부터 하나 이상의 네거티브 오디오 샘플(208)의 각각을 선택할 수 있다.

대안적으로 또는 부가적으로, 일부 실시형태에서, 트레이닝 오디오 샘플(202)은 등록 시에 선택될 수 있다. 제1 예로서, 컴퓨팅 디바이스(100)는 사용자(200)의 억양, 지역 방언, 말투, 등을 결정하기 위해 사용자(200)의 오디오 샘플의 평가를 수행할 수 있고, 이 결정에 기초하여 트레이닝 오디오 샘플(202)을 선택할 수 있다. 컴퓨팅 디바이스(100)는 사용자(200)로부터 수신된 하나 이상의 포지티브 오디오 샘플(204)에 기초하여 하나 이상의 네거티브 오디오 샘플(208)의 각각을 선택할 수 있다. 제2 예로서, 사용자(200)는 사용자(200)에 의해 말해질 때 호출어와 음향적으로 유사한 일부 단어 또는 구(예컨대, 사용자(200)가 지능형 음성 비서 디바이스와 상호 작용하면서 위양성 및/또는 위음성에 직면한 단어 또는 구)를 선택하고 말하도록 요청받을 수 있다.

일부 실시형태에서, 사용자(200)로부터 트레이닝 오디오 샘플(202)을 수신하기 위해, 컴퓨팅 디바이스(100)는 사용자(200)에게 하나 이상의 네거티브 오디오 샘플(208)을 제공하도록 요청할 수 있다. 예를 들면, 컴퓨팅 디바이스(100)는 사용자(200)에게 하나 이상의 포지티브 오디오 샘플(204)의 각각 및 하나 이상의 네거티브 오디오 샘플(208)의 각각을 말하도록 요청하는 음성 프롬프트를 제공할 수 있다. 대안적으로 또는 부가적으로, 컴퓨팅 디바이스(100)는 하나 이상의 포지티브 오디오 샘플(204)의 각각 및 하나 이상의 네거티브 오디오 샘플(208)의 각각을 말하도록 요청하는 기록 명령어를 디스플레이할 수 있다. 하나 이상의 네거티브 오디오 샘플(208)의 각각은 사용자의 억양, 사용자의 방언, 사용자의 말투, 등에 기초하여 하나 이상의 포지티브 오디오 샘플(204) 중 적어도 하나와 음향 유사성을 공유하는 사용자(200)의 구두 표현일 수 있다. 사용자(200)는 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)을 선택할 수 있다. 사용자는 트레이닝 오디오 샘플(202) 중 어떤 오디오 샘플이 오디오 특징(206)을 포함하고 트레이닝 오디오 샘플(202) 중 어떤 오디오 샘플이 오디오 특징(206)을 포함하지 않음을 나타낼 수 있다.

트레이닝 오디오 샘플(202)에 기초하여, 적대적 트레이닝(210-1)은 사용자 특정 오디오 샘플 교란(212-1)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-1)을 트레이닝하도록 수행될 수 있다. 예를 들면, 사용자(200)의 억양, 방언, 말투, 등으로 인해, 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)은 호출어의 제1 부분과 같은, 음향적으로 유사한 제1 서브샘플을 가질 수 있고, 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)의 제1 서브샘플의 대응하는 파형은 유사하다. 게다가, 사용자(200)의 억양, 방언, 말투 등으로 인해, 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)은 호출어의 제2 부분과 같은, 음향적으로 구별되는 제2 서브샘플을 가질 수 있고, 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)의 제2 서브샘플의 대응하는 파형은 구별된다.

제1 예로서, 적대적 트레이닝(210-1) 동안, 사용자 특정 교란 생성기 모델(146-1)은 파형과 같은 사용자 특정 오디오 샘플 교란(212-1)을 생성할 수 있다. 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)의 파형은 사용자 특정 오디오 샘플 교란(212-1)에 의해 예를 들면, 파형 덧셈, 뺄셈, 곱셈, 나눗셈, 또는 평균화에 의해 교란될 수 있다. 예를 들면, 사용자 특정 오디오 샘플 교란(212-1)은 호출어를 말하는 전형적인 사용자의 파형의 대응하는 서브샘플과 유사한 하나 이상의 포지티브 오디오 샘플(204)의 파형의 서브샘플을 증가시키거나 전달하는 파형, 및/또는 호출어를 말하는 전형적인 사용자의 파형의 대응하는 서브샘플과 유사하지 않은 하나 이상의 포지티브 오디오 샘플(204)의 파형의 서브샘플을 감소시키거나 마스킹(masking)하는 파형일 수 있고, 유사성 및 비유사성은 사용자(200)의 억양, 방언, 말투, 등에 기초한다. 제2 예로서, 사용자 특정 오디오 샘플 교란(212-1)은 사용자(200)의 억양, 방언, 말투, 등에 기초하여 하나 이상의 네거티브 오디오 샘플(208)의 대응하는 서브샘플과 유사한 하나 이상의 포지티브 오디오 샘플(204)의 파형의 서브샘플을 감소시키거나 마스킹하는 파형, 및/또는 하나 이상의 네거티브 오디오 샘플(208)의 대응하는 서브샘플과 유사하지 않은 하나 이상의 포지티브 오디오 샘플(204)의 파형의 서브샘플을 증가시키거나 전달하는 파형일 수 있고, 유사성 및 비유사성은 사용자(200)의 억양, 방언, 말투, 등에 기초한다. 사용자 특정 오디오 샘플 교란(212-1)에 의해 교란된 트레이닝 오디오 샘플(202)은 오디오 특징 검출 모델(144-1)에 의해 프로세싱되어 교란된 하나 이상의 포지티브 오디오 샘플(204)이 오디오 특징(206)을 포함하는 것으로서 인식되는지의 여부 및 교란된 하나 이상의 네거티브 오디오 샘플(208)이 오디오 특징(206)을 포함하는 것으로서 인식되지 않는지의 여부를 결정한다.

이 결정에 기초하여, 적대적 트레이닝(210-1)은 사용자 특정 교란 생성기 모델(146-1)을 조정할 수 있다(예컨대, 무작위로 및/또는 그래디언트(gradient)에 따른 것과 같은, 파형의 샘플 및/또는 각각의 주파수를 조정하고/하거나, 고 성능의 하나 이상의 후보를 유지하고 불량한 성능의 하나 이상의 후보를 폐기하는 것과 같은, 한 세트의 후보 사용자 특정 오디오 샘플 교란(212-1) 중에서 선택하기 위해 사용자 특정 교란 생성기 모델(146-1)을 조정한다). 제1 예로서, 적대적 트레이닝(210-1)은 오디오 특징(206)을 포함하는 미리 결정된 오디오 샘플과 하나 이상의 포지티브 오디오 샘플(204)의 교란된 포지티브 오디오 샘플 사이의 음향 유사성을 증가시키는 사용자 특정 오디오 샘플 교란(212-1)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-1)을 조정하는 것을 포함할 수 있다. 제2 예로서, 적대적 트레이닝(210-1)은 하나 이상의 포지티브 오디오 샘플(204)의 교란된 포지티브 오디오 샘플과 하나 이상의 네거티브 오디오 샘플(208)의 교란된 네거티브 오디오 샘플 사이의 음향 유사성을 감소시키는 사용자 특정 오디오 샘플 교란(212-1)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-1)을 조정하는 것을 포함할 수 있다. 사용자 특정 교란 생성기 모델(146-1)의 이러한 조정에 의해, 적대적 트레이닝(210-1)은 교란된 하나 이상의 포지티브 오디오 샘플(204)이 오디오 특성(206)을 포함한다는 진양성 결정을 증가시키고; 교란된 하나 이상의 포지티브 오디오 샘플(204)이 오디오 특징(206)을 포함하지 않는다는 위음성 결정을 감소시키고; 교란된 하나 이상의 네거티브 오디오 샘플(208)이 오디오 특징(206)을 포함하지 않는다는 진음성 결정을 증가시키고/시키거나; 교란된 하나 이상의 네거티브 오디오 샘플(208)이 오디오 특징(206)을 포함한다는 위양성 결정을 감소시킬 수 있다.

사용자 특정 교란 생성기 모델(146-1)의 적대적 트레이닝(210-1)은 (예컨대, 하나 이상의 에포크(epoch)와 같은 반복적인 방식으로) 적대적 트레이닝(210-1)의 진행을 나타내는 트레이닝 메트릭을 모니터링하면서 수행될 수 있다. 예를 들면, 적대적 트레이닝(210-1)의 각각의 에포크에 대해, 손실 메트릭(예컨대, 교란된 하나 이상의 포지티브 오디오 샘플(204) 및 교란된 하나 이상의 네거티브 오디오 샘플(208)의 분류 오차의 합, 또는 트레이닝 오디오 샘플(202)의 각각의 교란된 내부 표현의 분류 신뢰도와 대응하는 라벨 사이에서 산출된 평균 제곱 오차)은 사용자 특정 교란 생성기 모델(146-1)의 적대적 트레이닝(210-1)의 진행의 표시자로서 모니터링될 수 있다. 일부 실시형태에서, 유사한 손실 메트릭은 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)을 위해 사용될 수 있다. 일부 실시형태에서, 상이한 손실 메트릭은 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)을 위해 사용될 수 있다(예컨대, 위양성이 위음성보다 사용자(200)에게 공통적이거나 더 좌절스러운 것으로 인지되는 경우). 사용자 특정 교란 생성기 모델(146-1)의 적대적 트레이닝(210-1)의 완료는 손실 메트릭(예컨대, 손실 메트릭이 손실 메트릭 역치 내에 있거나, 손실 메트릭의 또 다른 트레이닝이 트레이닝 오디오 샘플(202)의 평가 세트에 대한 사용자 특정 교란 생성기 모델(146-1)의 성능을 개선시킬 가능성이 낮다는 결정)에 기초하여 결정될 수 있다. 결과적인 사용자 특정 교란 생성기 모델(146-1)은 사용자(200)의 오디오 샘플을 교란시키기 위해 사용될 때, 오디오 특징 검출 모델(144-1)이 교란된 오디오 샘플에서 오디오 특징(206)의 포함 또는 부재를 올바르게 결정할 가능성을 증가시키는 사용자 특정 오디오 샘플 교란(212-1)을 생성할 수 있다.

도 2b는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자 특정 교란 생성기 모델(146-1)에 의해 생성된 사용자 특정 오디오 샘플 교란(212-1)에 의해 교란된 오디오 샘플(214)의 표현을 프로세싱하는 오디오 특징 검출 모델(144-1)의 제1 예의 블록도이다. 오디오 특징 검출 모델(144-1)은, 예를 들면, 도 1의 컴퓨팅 디바이스(100)에 포함된 오디오 특징 검출 모델(144)일 수 있다. 사용자 특정 교란 생성기 모델(146-1)은, 예를 들면, 도 1의 컴퓨팅 디바이스(100)에 포함된 사용자 특정 교란 생성기 모델(146)일 수 있고 도 2a에 도시된 적대적 트레이닝(210-1)을 통해 생성될 수 있다.

도 2b에서, 사용자(200)는 컴퓨팅 디바이스(100)의 마이크로폰(134)에 의해 검출 및 샘플링되는 표현과 같은 오디오 샘플(214)을 제공한다. 오디오 샘플(214)이 호출어와 같은 오디오 특징(206)을 포함하는지의 여부를 결정하기 위해, 오디오 샘플(214)은 사용자 특정 교란 생성기 모델(146-1)에 의해 생성된 사용자 특정 오디오 샘플 교란(212-1)에 의해 교란(216)될 수 있다. 일부 실시형태에서, 사용자 특정 오디오 샘플 교란(212-1)은 "고정(frozen)" 교란과 같은, 임의의 오디오 샘플(214)에 적용될 사용자 특정 교란 생성기 모델(146-1)의 출력일 수 있다. 일부 실시형태에서, 사용자 특정 교란 생성기 모델(146-1)은 오디오 샘플(214) 예를 들면, 크기, 지속시간, 주파수 분포, 등과 같은 오디오 샘플(214)의 특징에 기초하는 사용자 특정 오디오 샘플 교란(212-1)에 기초하여 사용자 특정 오디오 샘플 교란(212-1)을 생성할 수 있다. 교란(216)은, 예를 들면, 덧셈, 뺄셈, 곱셈, 나눗셈, 평균화, 필터링, 등과 같은, 오디오 샘플(214) 및 사용자 특정 오디오 샘플 교란(212-1)에 적용된 산술 연산일 수 있다. 교란(216)은, 예를 들면, 오디오 샘플(214)의 각각의 서브샘플을 마스킹하거나 전달하는 비트마스크로서 표현된 사용자 특정 오디오 샘플 교란(212-1) 및 오디오 샘플(214)에 적용된 논리적 AND 및 OR 연산과 같은, 오디오 샘플(214) 및 사용자 특정 오디오 샘플 교란(212-1)에 적용된 논리적 연산일 수 있다.

교란된 오디오 샘플(218)은 교란된 오디오 샘플(218)이 오디오 특징(206)을 포함하는지의 여부를 결정하기 위해 오디오 특징 검출(220)을 수행하도록 오디오 특징 검출 모델(144-1)에 의해 프로세싱될 수 있다. 오디오 특징 검출 모델(144-1)은, 예를 들면, 오디오 샘플(214)에서 오디오 특징(206)을 인식하도록 트레이닝되었고, 교란된 오디오 샘플(218)에 유사하게 적용될 수 있는 기계 학습 모델일 수 있다. 오디오 특징 검출 모델(144-1)은 순환 신경망(RNN) 또는 변압기 기반 자동 인코더와 같은, 다양한 기계 학습 모델 유형의 하나 이상의 기계 학습 모델을 포함할 수 있다. 게다가, 오디오 특징 검출 모델(144-1)은 많은 오디오 특징 검출 기술을 사용하여 오디오 특징 검출(220)을 수행할 수 있다. 제1 예로서, 오디오 특징 검출(220)은 교란된 오디오 샘플(218)의 파형을 오디오 특징(206)의 파형과 비교하는 것 및 파형 차이 역치 내에 있는 파형 간의 차이에 기초하여 교란된 오디오 샘플(218)이 오디오 특징(206)을 포함하는지의 여부를 결정하는 것을 포함할 수 있다. 제2 예로서, 오디오 특징 검출(220)은 교란된 오디오 샘플(218)의 표현을 음소의 시퀀스로서 결정하는 것, 교란된 오디오 샘플(218)의 음소의 시퀀스를 오디오 특징(206)의 음소의 시퀀스와 비교하는 것, 및 교란된 오디오 샘플(218)이 편집 거리와 같은 음소 차이 역치 내에 있는 음소 간의 차이에 기초하여 오디오 특징(206)을 포함하는지의 여부를 결정하는 것을 포함할 수 있다. 다른 실시형태에서, 오디오 특징 검출(220) 및 이의 조합을 위한 다양한 기술을 구현하는, 다양한 다른 기계 학습 모델 및 이의 앙상블 중 임의의 것은 오디오 특징 검출 모델(144-1)에 포함될 수 있다.

컴퓨팅 디바이스(100)는 교란된 오디오 샘플(218)이 오디오 특징(206)을 포함하는지의 여부를 결정한 것에 기초하여 오디오 샘플(214)에 응답할 수 있다. 예를 들면, 오디오 특징 검출 모델(144-1)이 교란된 오디오 샘플(218)이 오디오 특징(206)을 포함한다고 결정하는 경우, 컴퓨팅 디바이스(100)는 응답(222)을 생성하고 응답(222)을 사용자(200)에게 제공할 수 있다. 응답(222)은, 예를 들면, 컴퓨팅 디바이스(100)가 활성이고 또 다른 입력을 수신할 준비가 되었음을 나타내는 호출어의 확인응답; 명령이거나 명령을 포함하는 오디오 특징(206)에 응답하여 취해진 컴퓨팅 디바이스(100)의 동작의 확인응답; 및/또는 질의이거나 질의를 포함하는 오디오 특징(206)에 대한 답변일 수 있다. 게다가, 오디오 특징 검출 모델(144-1)이 교란된 오디오 샘플(218)이 오디오 특징(206)을 포함하지 않는다고 결정하면, 컴퓨팅 디바이스(100)는, 예를 들면, 오디오 샘플(214)을 무시하고/하거나 메모리(116) 또는 저장 장치(114)로부터 오디오 샘플(214)을 삭제함으로써 응답(222)을 제공하는 것을 억제(224)할 수 있다. 교란되지 않은 오디오 샘플(214)에보다 오히려, 사용자 특정 오디오 샘플 교란(212-1)으로 오디오 샘플(214)을 교란시킨 것에 기초하여 교란된 오디오 샘플(218)에 오디오 특징 검출 모델(144-1)을 적용함으로써, 도 2b에 도시된 바와 같이 구성된 일 실시형태는 위양성 및/또는 위음성의 발생 정도를 감소시키면서 오디오 샘플(214)에 더 정확하게 응답할 수 있다.

도 3a는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자 특정 내부 표현 교란(212-2)을 생성하기 위한 사용자 특정 교란 생성기 모델(146-2)의 적대적 트레이닝(210-2)의 제2 예의 블록도이다. 도 3b의 사용자 특정 교란 생성기 모델(146-2)은, 예를 들면, 도 1에 도시된 바와 같이 사용자 특정 교란 생성기 모델(146)일 수 있다. 사용자 특정 내부 표현 교란(212-2)은 오디오 특징 검출 모델(144-2)에 의해 프로세싱될 수 있고, 이는, 예를 들면, 도 1의 컴퓨팅 디바이스(100)에 포함된 오디오 특징 검출 모델(144-2)일 수 있다.

도 2a와 유사하게, 사용자(200)는 하나 이상의 포지티브 오디오 샘플의 각각이 오디오 특징(206)을 포함하는 하나 이상의 포지티브 오디오 샘플(204), 및 하나 이상의 네거티브 오디오 샘플(208)의 각각이 오디오 특징(206)을 포함하지 않는 하나 이상의 네거티브 오디오 샘플(208)을 포함하는 한 세트의 트레이닝 오디오 샘플(202)을 제공할 수 있다. 일부 실시형태에서, 사용자(200)로부터 트레이닝 오디오 샘플(202)을 수신하기 위해, 컴퓨팅 디바이스(100)는 사용자(200)에게 하나 이상의 네거티브 오디오 샘플(208)을 제공하도록 요청할 수 있다. 예를 들면, 컴퓨팅 디바이스(100)는 사용자(200)에게 하나 이상의 포지티브 오디오 샘플(204)의 각각 및 하나 이상의 네거티브 오디오 샘플(208)의 각각을 말하도록 요청하는 음성 프롬프트를 제공할 수 있다. 대안적으로 또는 부가적으로, 컴퓨팅 디바이스(100)는 하나 이상의 포지티브 오디오 샘플(204)의 각각 및 하나 이상의 네거티브 오디오 샘플(208)의 각각을 말하도록 사용자(200)에게 요청하는 기록된 명령어를 디스플레이할 수 있다. 하나 이상의 네거티브 오디오 샘플(208)의 각각은 사용자의 억양, 사용자의 방언, 사용자의 말투, 등에 기초하여 하나 이상의 포지티브 오디오 샘플(204) 중 적어도 하나와 음향 유사성을 공유하는 사용자(200)의 구두 표현일 수 있다. 사용자(200)는 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)을 선택할 수 있다. 사용자는 트레이닝 오디오 샘플(202) 중 어떤 오디오 샘플이 오디오 특징(206)을 포함하는 포지티브 오디오 샘플(204)이고 트레이닝 오디오 샘플(202) 중 어떤 오디오 샘플이 오디오 특징(206)을 포함하지 않는 네거티브 오디오 샘플(208)인지를 나타낼 수 있다.

도 3a는 사용자 특정 내부 표현 교란(212-2)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-2)을 트레이닝하도록 트레이닝 오디오 샘플(202)에 기초한 적대적 트레이닝(210-2)을 도시한다. 도 2a와 달리, 도 3a의 사용자 특정 교란 생성기 모델(146-2)은 사용자(200)의 오디오 샘플의 내부 표현의 사용자 특정 내부 표현 교란(212-2)을 생성하도록 트레이닝된다. 예를 들면, 트레이닝 오디오 샘플(202)의 각각은 오디오 특징 검출 모델(144-2)에 의해 부분적으로 프로세싱되어 특징 벡터와 같은 내부 표현을 생성할 수 있다. 하나의 이러한 예로서, 부분 프로세싱은 트레이닝 오디오 샘플(202)의 각각을 음소 시퀀스로 변환하는 것을 포함할 수 있고, 하나 이상의 포지티브 오디오 샘플(204)의 음소 시퀀스는 하나 이상의 네거티브 오디오 샘플(208)의 대응하는 음소 시퀀스와 비교될 수 있다. 사용자 특정 교란 생성기 모델(210)의 적대적 트레이닝(210-2)은 음소 시퀀스의 수정과 같은, 트레이닝 오디오 샘플(202)의 내부 표현의 사용자 특정 내부 표현 교란(212-2)을 생성하는 것을 수반할 수 있다.

일부 실시형태에서, 사용자 특정 내부 표현 교란(212-2)은 오디오 샘플(214)의 각각의 음소 또는 음소 서브시퀀스가 평가되는 가중치의 세트일 수 있다. 예를 들면, 사용자 특정 내부 표현 교란(212-2)은 사용자(200)의 하나 이상의 포지티브 오디오 샘플(204)의 개별적인 음소 또는 음소 그룹과 오디오 특징(206)의 대응하는 음소 또는 음소 그룹 사이의 유사성에 비례하는 가중치를 나타낼 수 있다. 즉, 사용자 특정 내부 표현 교란(212-2)은 사용자(200)가 말할 때 호출어의 전형적인 구어 인스턴스의 확립된 음소 또는 음소 서브시퀀스와 유사한 호출어의 음소 또는 음소 서브시퀀스에 대한 큰 가중치, 및/또는 사용자(200)가 말할 때 호출어의 전형적인 구어 인스턴스의 확립된 음소 또는 음소 서브시퀀스와 유사하지 않은 호출어의 음소 또는 음소 서브시퀀스에 대한 작은 가중치를 나타낼 수 있다. 제2 예로서, 사용자 특정 내부 표현 교란(212-2)은 사용자(200)의 하나 이상의 포지티브 오디오 샘플(204)의 개별적인 음소 또는 음소 그룹과 사용자(200)의 하나 이상의 네거티브 오디오 샘플(208)의 대응하는 음소 또는 음소 그룹 사이의 유사성에 반비례하는 가중치를 나타낼 수 있다. 즉, 사용자 특정 내부 표현 교란(212-2)은 사용자(200)가 말할 때 호출어와 상이하지만, 음향적으로 유사한 단어의 대응하는 음소 또는 음소 서브시퀀스와 유사한 사용자(200)가 말할 때 호출어의 음소 또는 음소 서브시퀀스에 대한 작은 가중치, 및/또는 사용자(200)가 말할 때 호출어와 상이하지만, 음향적으로 유사한 단어의 대응하는 음소 또는 음소 서브시퀀스와 유사하지 않은 사용자(200)가 말할 때 호출어의 음소 또는 음소 서브시퀀스에 대한 큰 가중치를 나타낼 수 있다. 일부 실시형태에서, 다양한 다른 오디오 특징 검출 모델과 호환 가능한 오디오 샘플의 음소 기반 표현 이외의 표현은 오디오 특징 검출 모델(144-2)의 다양한 기계 학습 모델 및 이의 앙상블에 기초하여 생성 및 교란될 수 있어서, 오디오 특징 검출(220)을 위한 다양한 기술을 구현한다. 가중치에 대한 일 대안으로서, 사용자 특정 내부 표현 교란(212-2)은 오디오 특징(206)의 대응하는 음소 또는 음소 시퀀스와 유사하고/하거나 하나 이상의 네거티브 오디오 샘플(208)의 대응하는 음소 또는 음소 시퀀스와 유사하지 않은 하나 이상의 포지티브 오디오 샘플(204)의 음소 또는 음소 시퀀스를 전달하고, 오디오 특징(206)의 대응하는 음소 또는 음소 시퀀스와 유사하지 않고/않거나 하나 이상의 네거티브 오디오 샘플(208)의 대응하는 음소 또는 음소 시퀀스와 유사한 하나 이상의 포지티브 오디오 샘플(204)의 음소 또는 음소 시퀀스를 마스킹하는 비트마스크일 수 있다.

이 결정에 기초하여, 적대적 트레이닝(210-2)은 사용자 특정 교란 생성기 모델(146-2)을 조정할 수 있다(예컨대, 각각의 음소 또는 음소 서브시퀀스에 대해 사용자 특정 교란 생성기 모델(146-2)에 의해 적용된 가중치, 비트마스크, 등을 조정하고/하거나, 고 성능의 하나 이상의 후보를 유지하고 불량한 성능의 하나 이상의 후보를 폐기하는 것과 같은, 한 세트의 후보 사용자 특정 내부 표현 교란(212-2) 중에서 선택하기 위해 사용자 특정 교란 생성기 모델(146-2)을 조정한다). 제1 예로서, 적대적 트레이닝(210-2)은 오디오 특징을 포함하는 미리 결정된 오디오 샘플의 교란된 내부 표현(306)과 하나 이상의 포지티브 오디오 샘플(204)의 교란된 내부 표현(306) 사이의 유사성을 증가시키는 사용자 특정 내부 표현 교란(212-2)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-2)을 조정하는 것을 포함할 수 있다. 제2 예로서, 적대적 트레이닝(210-2)은 하나 이상의 포지티브 오디오 샘플(204)의 교란된 내부 표현(306)과 교란된 하나 이상의 네거티브 오디오 샘플(208)의 교란된 내부 표현(306) 사이의 유사성을 감소시키는 사용자 특정 내부 표현 교란(212-2)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-2)을 조정하는 것을 포함할 수 있다. 사용자 특정 교란 생성기 모델(146-2)의 이러한 조정에 의해, 적대적 트레이닝(210-2)은 하나 이상의 포지티브 오디오 샘플(204)의 교란된 내부 표현이 오디오 특성(206)을 포함한다는 진양성 결정을 증가시키고; 하나 이상의 포지티브 오디오 샘플(204)의 교란된 내부 표현이 오디오 특징(206)을 포함하지 않는다는 위음성 결정을 감소시키고; 하나 이상의 네거티브 오디오 샘플(208)의 교란된 내부 표현이 오디오 특징(206)을 포함하지 않는다는 진음성 결정을 증가시키고/시키거나; 하나 이상의 네거티브 오디오 샘플(208)의 교란된 내부 표현이 오디오 특징(206)을 포함한다는 위양성 결정을 감소시킬 수 있다.

도 2a와 유사하게, 도 3a에 도시된 바와 같이 사용자 특정 교란 생성기 모델(146-2)의 적대적 트레이닝(210-2)은 적대적 트레이닝(210-2)의 진행을 나타내는 트레이닝 메트릭을 모니터링하면서 수행될 수 있다(예컨대, 하나 이상의 에포크에 걸친 것과 같은 반복적인 방식으로). 예를 들면, 적대적 트레이닝(210-2)의 각각의 에포크에 대해, 손실 메트릭(예컨대, 하나 이상의 포지티브 오디오 샘플(204)의 교란된 내부 표현(306) 및 하나 이상의 네거티브 오디오 샘플(208)의 교란된 내부 표현(306)의 분류 오차의 합, 또는 트레이닝 오디오 샘플(202)의 각각의 교란된 내부 표현(306)의 분류 신뢰도와 대응하는 라벨 사이에서 산출된 평균 제곱 오차)은 사용자 특정 교란 생성기 모델(146-2)의 적대적 트레이닝(210-2)의 진행의 표시자로서 모니터링될 수 있다. 일부 실시형태에서, 유사한 손실 메트릭은 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)을 위해 사용될 수 있다. 일부 실시형태에서, 상이한 손실 메트릭은 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)을 위해 사용될 수 있다(예컨대, 위양성이 위음성보다 사용자(200)에게 공통적이거나 더 좌절스러운 것으로 인지되는 경우). 사용자 특정 교란 생성기 모델(146)의 적대적 트레이닝(210-2)의 완료는 손실 메트릭(예컨대, 손실 메트릭이 손실 메트릭 역치 내에 있거나, 손실 메트릭의 또 다른 트레이닝이 트레이닝 오디오 샘플(202)의 평가 세트에 대한 사용자 특정 교란 생성기 모델(146-2)의 성능을 개선시킬 가능성이 낮다는 결정)에 기초하여 결정될 수 있다. 결과적인 사용자 특정 교란 생성기 모델(146-2)은 사용자(200)의 오디오 샘플(214)의 내부 표현을 교란시키기 위해 사용될 때, 오디오 특징 검출 모델(144-2)이 오디오 샘플(214)의 교란된 내부 표현에서 오디오 특징(206)의 포함 또는 부재를 올바르게 결정할 가능성을 증가시키는 내부 표현 교란으로서 사용자 특정 내부 표현 교란(212-2)을 생성할 수 있다.

도 3b는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자 특정 교란 생성기 모델(146-2)에 의해 생성된 사용자 내부 표현 교란(212-2)에 의해 교란된 오디오 샘플(214)의 교란된 내부 표현(306)을 프로세싱하는 오디오 특징 검출 모델(144-2)의 제2 예의 블록도이다. 오디오 특징 검출 모델(144-2)은, 예를 들면, 도 1의 컴퓨팅 디바이스(100)에 포함된 오디오 특징 검출 모델(144)일 수 있다. 사용자 특정 교란 생성기 모델(146-2)은, 예를 들면, 도 1의 컴퓨팅 디바이스(100)에 포함된 사용자 특정 교란 생성기 모델(146)일 수 있고 도 3a에 도시된 적대적 트레이닝(210-2)을 통해 생성될 수 있다.

도 2b와 유사하게, 도 3b는 오디오 특징(206)을 포함할 수 있거나 포함하지 않을 수 있는 오디오 샘플(214)을 제공하는 사용자(200)를 도시한다. 또한, 도 2b와 유사하게, 도 3b는 오디오 특징 검출 모델(144-2)에 의한 프로세싱을 위해 사용자 특정 교란 생성기 모델(146-2)에 의해 생성된 사용자 특정 오디오 내부 표현 교란(212-2)을 통한 오디오 샘플(214)의 교란을 도시한다. 도 2b와 달리, 사용자 특정 내부 표현 교란(212-2)은 오디오 특징 검출 모델(144-2) 내의 오디오 샘플(214)의 내부 표현(302)을 교란시키기 위해 사용된다. 예를 들면, 오디오 샘플(214)은 신경망(예컨대, 오디오 샘플(214)의 서브샘플의 시퀀스를 프로세싱하는 순환 신경망)과 같은 오디오 특징 검출 모델(144-2)에 대한 입력으로서 제공될 수 있으며, 오디오 특징 검출 모델(144-2)은 오디오 샘플(214)의 내부 표현(예컨대, 특징 벡터)을 생성한다. 내부 표현(302)은, 예를 들면, 오디오 샘플(214)의 서브샘플의 음소 또는 음소 시퀀스를 나타내는 신경망의 계층의 출력일 수 있다. 일부 실시형태에서, 내부 표현(302)은 순환 신경망에서와 같이, 오디오 샘플(214)의 이전 서브샘플을 프로세싱한 결과와 같은 오디오 특징 검출 모델(144-2)의 상태를 포함한다.

도 3b에 도시된 바와 같이, 사용자 특정 내부 표현 교란(212-2)은, 예를 들면, 내부 표현(302)의 특징 벡터를 사용자 특정 내부 표현 교란(212-2)으로 더하거나, 빼거나, 곱하거나, 나눔으로써, 그리고/또는 교란된 내부 표현(306)을 생성하기 위해, 사용자 특정 내부 표현 교란(212-2)에 의해 표시된 비트마스크에 기초하여 내부 표현(302)의 특징 벡터의 음소를 전달하거나 마스킹함으로써 오디오 샘플(214)의 내부 표현(302)을 교란(304)시킬 수 있다. 오디오 특징 검출 모델(144-2)은 교란된 내부 표현(306)을 계속 프로세싱하여 오디오 샘플(214)이 오디오 특징(206)을 포함하는지의 여부에 대한 결정을 생성할 수 있다. 도 2b의 예와 유사하게, 오디오 샘플(214)(사용자 특정 내부 표현 교란(212-2)에 의해 교란된 바와 같음)이 오디오 특징(206)을 포함하는지의 여부의 오디오 특징 검출 모델(144-2)에 의한 결정. 예를 들면, 오디오 특징 검출 모델(144-2)이 교란된 내부 표현(306)이 오디오 특징(206)을 포함하는 오디오 샘플(214)의 내부 표현과 일치하는 내부 표현이라고 결정한 것에 기초하여. 유사하게 오디오 특징(206)을 포함하고, 컴퓨팅 디바이스(100)는 오디오 샘플(214)에 대한 응답(222)을 생성하고 제공할 수 있고; 오디오 특징 검출 모델(144-2)이 오디오 샘플(214)이 오디오 특징(206)을 포함하지 않는다고 결정한 것에 기초하여, 컴퓨팅 디바이스(100)는 오디오 샘플(214)에 응답(222)을 제공하는 것을 억제(224)할 수 있다. 교란되지 않은 내부 표현(302)에보다 오히려, 사용자 특정 내부 표현 교란(212-2)에 기초하여 오디오 샘플(214)의 교란된 내부 표현(306)에 오디오 특징 검출 모델(144-2)을 적용함으로써, 도 3b에 도시된 바와 같이 구성된 일 실시형태는 위양성 및/또는 위음성의 발생 정도를 감소시키면서 오디오 샘플(214)에 더 정확하게 응답할 수 있다.

일부 실시형태에서, 하나의 컴퓨팅 디바이스(100)는 사용자(200)와 상호 작용하기 위해 본 명세서에서 제공된 기술을 사용하도록 구성될 수 있다. 예를 들면, 및 도 1에 도시된 바와 같이, 컴퓨팅 디바이스(100)는 오디오 특징 검출 모델(144) 및 사용자 특정 교란 생성기 모델(146) 둘 모두를 포함하는 오디오 프로세싱 애플리케이션(142)을 포함할 수 있다. 등록 동안, 컴퓨팅 디바이스(100)는 사용자(200)의 하나 이상의 포지티브 오디오 샘플(204) 및 하나 이상의 네거티브 오디오 샘플(208)을 수신할 수 있고 사용자 특정 교란(212)을 생성하기 위해 사용자 특정 교란 생성기 모델(146)을 적대적으로 트레이닝할 수 있다. 적대적 트레이닝 후에, 오디오 특징(206)을 포함할 수 있거나 포함하지 않을 수 있는 오디오 샘플(214)을 사용자(200)로부터 수신한 것에 기초하여, 컴퓨팅 디바이스(100)는 교란된 표현을 생성하기 위해 사용자 특정 교란(212)으로 오디오 샘플(214)의 표현을 교란시키고, 오디오 샘플(124)이 오디오 특징(206)을 포함하는지의 여부를 결정하기 위해 오디오 특징 검출 모듈에 의해 오디오 샘플(214)의 교란된 표현을 프로세싱하며, (예컨대, 오디오 샘플(124)이 오디오 특징(206)을 포함한다고 결정한 것에 기초하여 응답(222)을 제공하고, 오디오 샘플(124)이 오디오 특징(206)을 포함하지 않는다고 결정한 것에 기초하여 응답을 제공하는 것을 억제(224)함으로써) 결정에 기초하여 오디오 샘플(214)에 대한 응답을 결정할 수 있다. 일부 이러한 실시형태에서, 컴퓨팅 디바이스(100)는 오디오 샘플 교란을 생성하기 위해 도 2a 및 도 2b의 사용자 특정 교란 생성기 모델(146-1)을 적대적으로 트레이닝할 수 있고 오디오 샘플(214)을 교란(216)시켜 도 2b의 오디오 특징 검출 모델(144-1)에 의해 프로세싱되는 교란된 오디오 샘플(218)을 생성할 수 있다. 일부 이러한 실시형태에서, 컴퓨팅 디바이스(100)는 내부 표현 교란을 생성하기 위해 도 3a 및 도 3b의 사용자 특정 교란 생성기 모델(146-2)을 적대적으로 트레이닝할 수 있고 도 3b의 오디오 특징 검출 모델(144-2)에 의해 프로세싱되는 교란된 내부 표현(306)을 생성하기 위해 오디오 샘플(214)의 내부 표현(302)을 교란(304)시킬 수 있다.

일부 실시형태에서, 2개 이상의 컴퓨팅 디바이스는 각각, 컴퓨팅 디바이스(100) 중 하나가 사용자(200)와 상호 작용하는 것을 가능하게 하기 위해 개시된 기술의 하나 이상의 특징을 구현할 수 있다. 제1 이러한 예로서, 원격 디바이스(140) 중 하나에서 실행되는 클라우드 기반 서버 또는 서비스와 같은 제1 컴퓨팅 디바이스(100)는 도 2a의 사용자 특정 교란 생성기 모델(146-1) 및/또는 도 3a의 사용자 특정 교란 생성기 모델(146-2)과 같은 사용자 특정 교란 생성기 모델(146)을 적대적으로 트레이닝할 수 있고, 사용자 특정 교란 생성기 모델(146)을 제2 컴퓨팅 디바이스(100)(예컨대, 원격 디바이스(140) 중 하나)에 배치할 수 있다. 제2 컴퓨팅 디바이스(100)는 사용자 특정 교란 생성기 모델(146)을 수신 및 저장할 수 있고, 오디오 특징(206)을 포함할 수 있거나 포함하지 않을 수 있는 오디오 샘플(214)을 사용자(200)로부터 수신한 것에 기초하여, 제2 컴퓨팅 디바이스(100)는 사용자 특정 교란(212)으로 오디오 샘플(214)의 표현을 교란시키고, 오디오 샘플(124)이 오디오 특징(206)을 포함하는지의 여부를 결정하기 위해 오디오 특징 검출 모델에 의해 오디오 샘플(214)의 교란된 표현을 프로세싱할 수 있다. 일부 이러한 실시형태에서, 제2 컴퓨팅 디바이스(100)는 도 2b의 오디오 특징 검출 모델(144-1)에 의해 프로세싱되는 교란된 오디오 샘플(218)을 생성하기 위해 사용자 특정 오디오 샘플 교란(212-1)으로 오디오 샘플(214)을 교란(216)시킬 수 있다. 이러한 일부 실시형태에서, 제2 컴퓨팅 디바이스(100)는 도 3b의 오디오 특징 검출 모델(144-2)에 의해 프로세싱되는 교란된 내부 표현(306)을 생성하기 위해 사용자 특정 내부 표현 교란(212-2)으로 오디오 샘플(214)의 내부 표현(302)을 교란(304)시킬 수 있다. 결정에 기초하여, (예컨대, 오디오 샘플(124)이 오디오 특징(206)을 포함한다고 결정한 것에 기초하여 응답(222)을 제공하고/하거나, 오디오 샘플(124)이 오디오 특징(206)을 포함하지 않는다고 결정한 것에 기초하여 응답을 제공하는 것을 억제(224)함으로써) 제2 컴퓨팅 디바이스(100)는 오디오 샘플(214)에 대한 응답을 결정할 수 있다.

제2 이러한 예로서, 원격 디바이스(140) 중 하나에서 실행되는 클라우드 기반 서버 또는 서비스와 같은 제1 컴퓨팅 디바이스(100)는 도 2a의 사용자 특정 교란 생성기 모델(146-1)과 같은 사용자 특정 교란 생성기 모델(146)을 적대적으로 트레이닝할 수 있고, 오디오 샘플 교란과 같은, 사용자 특정 교란 생성기 모델(146-1)에 의해 생성된 사용자 특정 오디오 샘플 교란(212-1)을 제2 컴퓨팅 디바이스(100)(예컨대, 원격 디바이스(140) 중 하나)에 배치할 수 있다. 제2 컴퓨팅 디바이스(100)는 사용자 특정 오디오 샘플 교란(212-1)을 수신 및 저장할 수 있다. 오디오 특징(206)을 포함할 수 있거나 포함하지 않을 수 있는 오디오 샘플(214)을 사용자(200)로부터 수신한 것에 기초하여, 제2 컴퓨팅 디바이스(100)는 사용자 특정 오디오 샘플 교란(212-1)으로 오디오 샘플(214)의 표현을 교란시키고 오디오 샘플(124)이 오디오 특징(206)을 포함하는지의 여부를 결정하기 위해 오디오 특징 검출 모델에 의해 오디오 샘플(214-1)의 교란된 표현을 프로세싱할 수 있다. 결정에 기초하여, (예컨대, 오디오 샘플(124)이 오디오 특징(206)을 포함한다고 결정한 것에 기초하여 응답(222)을 제공하고/하거나, 오디오 샘플(124)이 오디오 특징(206)을 포함하지 않는다고 결정한 것에 기초하여 응답을 제공하는 것을 억제(224)함으로써) 제2 컴퓨팅 디바이스(100)는 결정에 기초하여 오디오 샘플(214)에 대한 응답을 결정할 수 있다.

제3 이러한 예로서, 원격 디바이스(140) 중 하나에서 실행되는 클라우드 기반 서버 또는 서비스와 같은 제1 컴퓨팅 디바이스(100)는 도 2a의 사용자 특정 교란 생성기 모델(146-1)과 같은 사용자 특정 교란 생성기 모델(146)을 적대적으로 트레이닝할 수 있고, 제2 컴퓨팅 디바이스(100)로부터 수신된 오디오 샘플(214)을 교란시킬 수 있다. 예를 들면, 오디오 특징(206)을 포함할 수 있거나 포함하지 않을 수 있는 오디오 샘플(214)을 사용자(200)로부터 수신한 것에 기초하고, 제2 컴퓨팅 디바이스(100)를 전송할 수 있고 이는 오디오 샘플(214)을 제1 컴퓨팅 디바이스(100)로 전송할 수 있다. 제1 컴퓨팅 디바이스(100)는 사용자 특정 오디오 샘플 교란(212-1)을 생성 및/또는 검색하고, 사용자 특정 오디오 샘플 교란(212-1)으로 오디오 샘플(214)를 교란시키며, 교란된 오디오 샘플(218)을 제2 컴퓨팅 디바이스(100)(예컨대, 원격 디바이스(140) 중 하나)로 다시 전송할 수 있다. 제2 컴퓨팅 디바이스(100)는 수신된 사용자 특정 오디오 샘플 교란(212-1)으로 오디오 샘플(214)을 교란(216)시켜 교란된 오디오 샘플(218)을 생성할 수 있다. 제2 컴퓨팅 디바이스(100)는 오디오 샘플(124)이 오디오 특징(206)을 포함하는지의 여부를 결정하기 위해 오디오 특징 검출 모델(144-1)에 의해 교란된 오디오 샘플(214)을 프로세싱할 수 있고, 결정에 기초하여, (예컨대, 오디오 샘플(124)이 오디오 특징(206)을 포함한다고 결정한 것에 기초하여 응답(222)을 제공하고, 오디오 샘플(124)이 오디오 특징(206)을 포함하지 않는다고 결정한 것에 기초하여 응답을 제공하는 것을 억제(224)함으로써) 오디오 샘플(214)에 대한 응답을 결정할 수 있다.

제4 이러한 예로서, 원격 디바이스(140) 중 하나에서 실행되는 클라우드 기반 서버 또는 서비스와 같은 제1 컴퓨팅 디바이스(100)는 오디오 특징 검출 모델(144) 및 사용자 특정 교란 생성기 모델(146) 둘 모두를 포함하는 오디오 프로세싱 애플리케이션(142)을 포함할 수 있고, 제2 컴퓨팅 디바이스(100)에 의해 수신된 사용자(200)의 오디오 샘플(214)을 프로세싱할 수 있다. 예를 들면, 사용자(200)의 오디오 샘플(214)을 수신한 것에 기초하여, 제2 컴퓨팅 디바이스(100)는 오디오 샘플(214)을 제1 컴퓨팅 디바이스(100)로 전송할 수 있다. 제1 컴퓨팅 디바이스(100)는 도 2b의 사용자 특정 교란 생성기 모델(146-1)에 의해 생성된 사용자 특정 오디오 샘플 교란(212-1)과 같은 사용자 특정 교란(212)으로 오디오 샘플(214)의 표현을 교란시킬 수 있다. 제1 컴퓨팅 디바이스(100)는 오디오 샘플(214)이 오디오 특징(206)을 포함하는지의 여부를 결정하기 위해 도 2b의 오디오 특징 검출 모델(144-1)과 같은 오디오 특징 검출 모델(144)로 교란된 표현을 프로세싱할 수 있다. 제1 컴퓨팅 디바이스(100)는 (예컨대, 오디오 샘플(124)이 오디오 특징(206)을 포함한다고 결정한 것에 기초하여 응답(222)을 제공하고/하거나, 오디오 샘플(124)이 오디오 특징(206)을 포함하지 않는다고 결정한 것에 기초하여 응답을 제공하는 것을 억제(224)함으로써) 오디오 샘플(214)에 대한 응답을 결정할 수 있는 제2 컴퓨팅 디바이스(100)으로 결정을 반환할 수 있다. 많은 이러한 변형은 다양한 실시형태의 범위 내에 있다.

도 4는 다양한 실시형태의 하나 이상의 양태에 따른, 오디오 특징 검출 모델을 위해 사용자 특정 교란 생성기를 트레이닝하기 위한 방법 단계의 흐름도를 도시한다. 방법 단계가 도 1 및 도 2a의 시스템과 관련하여 설명되더라도, 당업자라면 방법 단계를 임의의 순서로 수행하도록 구성된 임의의 시스템이 다양한 실시형태의 범위 내에 있다는 것을 이해할 것이다.

도시된 바와 같이, 방법(400)은 컴퓨팅 디바이스(예컨대, 컴퓨팅 디바이스(100), 원격 디바이스(140), 등)가 사용자(200)의 하나 이상의 포지티브 오디오 샘플(204)을 수신하는 단계(402)에서 시작하며, 하나 이상의 포지티브 오디오 샘플(204)의 각각은 오디오 특징(206)을 포함한다. 예를 들면, 지능형 개인 비서의 오디오 프로세싱 애플리케이션과 같은, 오디오 프로세싱 애플리케이션(142)은 사용자(200)에게 호출어를 포함하는 상이한 구와 같은, 오디오 특징(206)을 포함하는 하나 이상의 단어 또는 구를 말하도록 요청할 수 있다. 오디오 프로세싱 애플리케이션(142)은 하나 이상의 마이크로폰(134)으로 하나 이상의 포지티브 오디오 샘플(204)을 수신하고 저장 장치(114)에 하나 이상의 포지티브 오디오 샘플(204)을 저장할 수 있다.

단계(404)에서, 오디오 프로세싱 애플리케이션(142)은 사용자(200)의 하나 이상의 네거티브 오디오 샘플(208)을 수신한다. 하나 이상의 네거티브 오디오 샘플(208)의 각각은 하나 이상의 포지티브 오디오 샘플(204) 중 적어도 하나와 음향 유사성을 공유한다. 예를 들면, 오디오 프로세싱 애플리케이션(142)은 사용자(200)의 억양, 방언, 말투, 등으로 인해, 오디오 특징(206)을 포함하지 않지만, 사용자(200)가 말할 때 오디오 특징(206)처럼 들릴 수 있는 하나 이상의 단어 또는 구를 말하도록 사용자(200)에게 요청할 수 있다. 일부 실시형태에서, 오디오 프로세싱 애플리케이션(142)은 사용자(200)의 인구통계학적 특징을 결정하고 사용자(200)와 유사한 인구통계학적 특징을 갖는 개인이 말할 때, 오디오 특징(206)과 음향 유사성을 공유하는 네거티브 오디오 샘플의 세트를 선택할 수 있다. 네거티브 오디오 샘플의 세트는 개발자 또는 언어학자에 의해 선택될 수 있다. 오디오 프로세싱 애플리케이션(142)은 하나 이상의 마이크로폰(134)으로 하나 이상의 네거티브 오디오 샘플(208)을 수신하고 저장 장치(114)에 하나 이상의 네거티브 오디오 샘플을 저장할 수 있다.

단계(406)에서, 오디오 프로세싱 애플리케이션(142)은 사용자(200)의 사용자 특정 오디오 샘플 교란(212-1)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-1)을 적대적으로 트레이닝한다. 예를 들면, 오디오 프로세싱 애플리케이션(142)은 사용자 특정 교란 생성기 모델(146-1)을 트레이닝하여 사용자(200)의 오디오 샘플과 조합될 때, 사용자의 포지티브 오디오 샘플과 오디오 특징(206) 사이의 음향 유사성을 증가시키고/시키거나 음향 비유사성을 감소시키는 사용자 특정 오디오 교란(212-1)을 생성할 수 있다. 일부 실시형태에서, 오디오 프로세싱 애플리케이션(142)은 사용자 특정 오디오 샘플 교란(212-1)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-1)을 트레이닝할 수 있으며, 이는 사용자(200)의 오디오 샘플과 조합될 때, 사용자(200)의 네거티브 오디오 샘플과 오디오 특징(206) 사이의 음향 유사성을 감소시키고/시키거나 음향 비유사성을 증가시킨다.

도 5는 다양한 실시형태의 하나 이상의 양태에 따른, 사용자의 오디오 샘플이 오디오 특징을 포함하는지의 여부를 결정하기 위한 방법 단계의 흐름도를 도시한다. 방법 단계가 도 1 및 도 2b의 시스템과 관련하여 설명되더라도, 당업자라면 방법 단계를 임의의 순서로 수행하도록 구성된 임의의 시스템이 다양한 실시형태의 범위 내에 있다는 것을 이해할 것이다.

도시된 바와 같이, 방법(500)은 컴퓨팅 디바이스(예컨대, 컴퓨팅 디바이스(100), 원격 디바이스(140), 등)가 사용자(200)의 오디오 샘플(214)을 수신하는 단계(502)에서 시작한다. 예를 들면, 지능형 개인 비서의 오디오 프로세싱 애플리케이션과 같은 오디오 프로세싱 애플리케이션(142)은 사용자(200)가 말하고 있음을 검출하고, 하나 이상의 마이크로폰(134)으로 사용자(200)의 음성의 오디오 샘플(214)을 수신하며, 선택적으로 오디오 샘플(214)을 저장 장치(114)에 저장할 수 있다. 오디오 샘플(214)은 오디오 특징(206)(예컨대, 호출어)이거나 이를 포함하는 포지티브 오디오 샘플일 수 있거나, 오디오 특징(206)을 포함하지 않지만 오디오 특징(206)과 음향적으로 유사한 네거티브 오디오 샘플일 수 있다.

단계(504)에서, 오디오 프로세싱 애플리케이션(142)은 교란된 오디오 샘플(218)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-1)에 의해 생성된 사용자 특정 오디오 샘플 교란(212-1)으로 오디오 샘플(214)을 교란시킨다. 예를 들면, 사용자 특정 오디오 샘플 교란(212-1)은 포지티브 오디오 샘플에 대해, 오디오 특징(206)과 음향적으로 유사한 오디오 샘플(214)의 서브샘플을 증가 또는 전달시키고, 오디오 특징(206)과 음향적으로 유사하지 않은 오디오 샘플(214)의 서브샘플을 감소시키거나 마스킹하는 파형일 수 있다. 대안적으로 또는 부가적으로, 사용자 특정 오디오 교란은 네거티브 오디오 샘플에 대해, 오디오 특징(206)과 음향적으로 유사한 오디오 샘플(214)의 서브샘플을 감소시키거나 마스킹하고, 오디오 특징(206)과 음향적으로 유사하지 않은 오디오 샘플(214)의 서브샘플을 증가시키거나 전달하는 파형일 수 있다.

단계(506)에서, 오디오 프로세싱 애플리케이션(142)은 오디오 샘플(214)이 오디오 특징(206)을 포함하는지의 여부를 결정하기 위해 오디오 특징 검출 모델(144-1)로 교란된 오디오 샘플(218)을 프로세싱한다. 예를 들면, 오디오 특징 검출 모델(144-1)은 교란된 오디오 샘플(218)의 파형과 오디오 특징(206)의 파형을 비교하여 교란된 오디오 샘플(218)과 오디오 특징(206) 사이의 차이가 차이 역치 내에 있는지의 여부를 결정할 수 있다. 그렇다면, 오디오 프로세싱 애플리케이션(142)은 오디오 특징(206)에 응답하거나 사용자(200)의 질의 또는 명령에 대한 응답을 제공하는 것과 같은, 오디오 샘플(214)에 대한 응답(222)을 생성하고 제공할 수 있으며; 그렇지 않다면, 오디오 프로세싱 애플리케이션(142)은 응답(224)을 제공하는 것을 억제할 수 있다.

도 6은 다양한 실시형태의 하나 이상의 부가적인 양태에 따른, 사용자의 하나 이상의 포지티브 오디오 샘플 및 사용자의 하나 이상의 네거티브 오디오 샘플에 기초하여 오디오 특징 검출 모델을 위한 사용자 특정 교란 생성기를 트레이닝하기 위한 방법 단계의 흐름도를 도시한다. 방법 단계가 도 1 및 도 3a의 시스템과 관련하여 설명되더라도, 당업자라면 방법 단계를 임의의 순서로 수행하도록 구성된 임의의 시스템이 다양한 실시형태의 범위 내에 있다는 것을 이해할 것이다.

도시된 바와 같이, 방법(600)은 컴퓨팅 디바이스(예컨대, 컴퓨팅 디바이스(100), 원격 디바이스(140), 등)가 사용자(200)의 하나 이상의 포지티브 오디오 샘플(204)을 수신하는 단계(602)에서 시작한다. 하나 이상의 포지티브 오디오 샘플(204)의 각각은 오디오 특징(206)을 포함한다. 예를 들면, 지능형 개인 비서의 오디오 프로세싱 애플리케이션과 같은 오디오 프로세싱 애플리케이션(142)은 사용자(200)에게 호출어를 포함하는 상이한 구와 같은, 오디오 특징(206)을 포함하는 하나 이상의 단어 또는 구를 말하도록 요청할 수 있다. 오디오 프로세싱 애플리케이션(142)은 하나 이상의 마이크로폰(134)으로 하나 이상의 포지티브 오디오 샘플(204)을 수신하고 저장 장치(114)에 하나 이상의 포지티브 오디오 샘플(204)을 저장할 수 있다.

단계(604)에서, 오디오 프로세싱 애플리케이션(142)은 사용자(200)의 하나 이상의 네거티브 오디오 샘플(208)을 수신한다. 하나 이상의 네거티브 오디오 샘플(208)의 각각은 하나 이상의 포지티브 오디오 샘플(204) 중 적어도 하나와 유사성을 공유한다. 예를 들면, 오디오 프로세싱 애플리케이션(142)은 사용자(200)의 억양, 방언, 말투, 등으로 인해, 오디오 특징(206)을 포함하지 않지만, 사용자(200)가 말할 때 오디오 특징(206)처럼 들릴 수 있는 하나 이상의 단어 또는 구를 말하도록 사용자(200)에게 요청할 수 있다. 일부 실시형태에서, 오디오 프로세싱 애플리케이션(142)은 사용자(200)의 인구통계학적 특징을 결정하고 사용자(200)와 유사한 인구통계학적 특징을 갖는 개인이 말할 때, 오디오 특징(206)과 음향 유사성을 공유하는 네거티브 오디오 샘플(208)의 세트를 선택할 수 있다. 네거티브 오디오 샘플(208)의 세트는 개발자 또는 언어학자에 의해 선택될 수 있다. 오디오 프로세싱 애플리케이션(142)은 하나 이상의 마이크로폰(134)으로 하나 이상의 네거티브 오디오 샘플(208)을 수신하고 저장 장치(114)에 하나 이상의 네거티브 오디오 샘플(208)을 저장할 수 있다.

단계(606)에서, 오디오 프로세싱 애플리케이션(142)은 사용자(200)의 오디오 샘플의 내부 표현의 사용자 특정 내부 표현 교란(212-2)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-2)을 적대적으로 트레이닝한다. 예를 들면, 오디오 프로세싱 애플리케이션(142)은 사용자 특정 교란 생성기 모델(146-2)을 트레이닝하여 오디오 특징 검출 모델(예컨대, 오디오 특징 검출 모델(144-2)) 내의 사용자(200)의 포지티브 오디오 샘플(204)의 내부 표현을 표현하는 특징 벡터와 조합될 때, 특징 벡터와 오디오 특징(206)의 내부 표현인 특징 벡터 사이의 유사성을 증가시키고/시키거나 비유사성을 감소시키는 사용자 특정 내부 표현 교란(212-2)을 생성할 수 있다. 일부 실시형태에서, 오디오 프로세싱 애플리케이션(142)은 사용자 특정 교란 생성기 모델(146-2)을 트레이닝하여 오디오 특징 검출 모델 내의 사용자(200)의 네거티브 오디오 샘플의 내부 표현을 표현하는 특징 벡터와 조합될 때, 네거티브 오디오 샘플(208)의 내부 표현과 오디오 특징(206)의 내부 표현 사이의 유사성을 감소시키고/시키거나 비유사성을 증가시키는 사용자 특정 내부 표현 교란(212-2)을 생성할 수 있다.

도 7은 다양한 실시형태의 하나 이상의 부가적인 양태에 따른, 사용자의 오디오 샘플이 오디오 특징을 포함하는지의 여부를 결정하기 위한 방법 단계의 흐름도를 도시한다. 방법 단계가 도 1 및 도 3b의 시스템과 관련하여 설명되더라도, 당업자라면 방법 단계를 임의의 순서로 수행하도록 구성된 임의의 시스템이 다양한 실시형태의 범위 내에 있다는 것을 이해할 것이다.

도시된 바와 같이, 방법(700)은 컴퓨팅 디바이스(예컨대, 컴퓨팅 디바이스(100), 원격 디바이스(140), 등)가 사용자의 오디오 샘플을 수신하는 단계(702)에서 시작한다. 예를 들면, 지능형 개인 비서의 오디오 프로세싱 애플리케이션과 같은 오디오 프로세싱 애플리케이션(142)은 사용자(200)가 말하고 있음을 검출하고, 하나 이상의 마이크로폰(134)으로 사용자(200)의 오디오 샘플(214)을 수신하며, 선택적으로 오디오 샘플(214)을 저장 장치(114)에 저장할 수 있다. 오디오 샘플(214)은 오디오 특징(206)(예컨대, 호출어)이거나 이를 포함하는 포지티브 오디오 샘플일 수 있거나, 오디오 특징(206)을 포함하지 않지만 오디오 특징(206)과 음향적으로 유사한 네거티브 오디오 샘플일 수 있다.

단계(704)에서, 오디오 프로세싱 애플리케이션(142)은 오디오 샘플(214)의 내부 표현(302)을 생성하기 위해 오디오 특징 검출 모델(144-2)로 오디오 샘플(214)을 프로세싱한다. 예를 들면, 오디오 샘플(214)은 뉴런 계층으로부터 출력된 것으로서 부분적으로 프로세싱된 오디오 샘플의 특징의 특징 벡터를 생성하기 위해 인공 신경망과 같은 모델에 의해 부분적으로 프로세싱될 수 있다. 특징은, 예를 들면, 오디오 샘플(214)에 대응하는 음소의 시퀀스의 인코딩일 수 있다.

단계(706)에서, 오디오 프로세싱 애플리케이션(142)은 교란된 내부 표현(306)을 생성하기 위해 사용자 특정 교란 생성기 모델(146-2)에 의해 생성된 사용자 특정 내부 표현 교란(212-2)으로 오디오 샘플(214)의 내부 표현(302)을 교란시킨다. 예를 들면, 사용자 특정 내부 표현 교란(306)은 포지티브 오디오 샘플에 대해, 오디오 특징(206)의 음소 시퀀스에서 대응하는 음소와 유사한 음소의 특징 벡터의 값을 증가 또는 전달하고, 오디오 특징(206)의 음소 시퀀스에서 대응하는 음소와 유사하지 않은 음소의 특징 벡터의 값을 감소시키거나 마스킹하는 ~의 시퀀스를 표현하는 특징 벡터에 적용된 가중치일 수 있다. 대안적으로 또는 부가적으로, 사용자 특정 내부 표현 교란(212-2)은 네거티브 오디오 샘플에 대해, 오디오 특징(206)의 음소 시퀀스에서 대응하는 음소와 유사한 음소의 특징 벡터의 서브샘플 값을 감소시키거나 마스킹하고, 오디오 특징(206)의 음소 시퀀스에서 대응하는 음소와 유사하지 않은 음소의 특징 벡터의 값을 증가시키거나 전달하는 가중치일 수 있다.

단계(708)에서, 오디오 프로세싱 애플리케이션(142)은 오디오 샘플(214)이 오디오 특징(206)을 포함하는지의 여부를 결정하기 위해 오디오 특징 검출 모델(144-2)로 교란된 내부 표현(306)을 프로세싱한다. 예를 들면, 오디오 프로세싱 애플리케이션(142)은 교란된 내부 표현(306)이 오디오 특징(206)을 포함하는 오디오 샘플(214)의 내부 표현과 일치하는 내부 표현인지의 여부를 결정할 수 있다. 그렇다면, 오디오 프로세싱 애플리케이션(142)은 오디오 특징(206)에 응답하거나 사용자(200)의 질의 또는 명령에 대한 응답을 제공하는 것과 같은, 오디오 샘플(214)에 대한 응답(222)을 생성 및 제공할 수 있고; 그렇지 않은 경우, 디바이스는 응답(224)을 제공하는 것을 억제할 수 있다.

요약하면, 오디오 특징 검출 모델을 위한 사용자 특정 교란 생성기를 트레이닝하기 위한 기술. 기술은 사용자의 하나 이상의 포지티브 오디오 샘플을 수신하는 것을 포함하며, 여기서 하나 이상의 포지티브 오디오 샘플의 각각은 검출되고 응답될 오디오 특징을 포함한다. 기술은 사용자의 하나 이상의 네거티브 오디오 샘플을 수신하는 것을 더 포함하고, 여기서 하나 이상의 네거티브 오디오 샘플의 각각은 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유한다. 사용자 특정 교란 생성기 모델은 그 다음, 오디오 특징이 오디오 샘플에 존재할 때 오디오 특징을 인식하고 오디오 특징을 포함하지 않는 오디오 샘플을 인식하지 못하게 하기 위해 오디오 특징 검출 모델의 능력을 개선할 수 있는 사용자 특정 교란을 생성하도록 적대적으로 트레이닝된다.

일부 접근법에서, 사용자 특정 교란은 사용자의 후속적으로 수신된 오디오 샘플을 교란시키기 위해 사용되는 사용자 특정 오디오 샘플 교란이다. 교란된 오디오 샘플은 그 다음, 오디오 샘플이 오디오 특징을 포함하거나 포함하지 않는지의 여부를 결정하기 위해 오디오 특징 검출 모델에 의해 프로세싱된다. 오디오 특징 검출 모델이 오디오 샘플이 오디오 특징을 포함한다고 결정할 때, 기술은 오디오 샘플에 대한 응답을 생성하는 것을 포함한다. 다른 접근법에서, 사용자 특정 교란은 사용자의 후속적으로 수신된 오디오 샘플의 내부 표현을 교란시키기 위해 사용되는 사용자 특정 내부 표현 교란이며, 여기서 내부 표현은 오디오 특징 검출 모델에 의한 오디오 샘플의 부분 프로세싱 후의 오디오 샘플의 표현이다. 이어서, 오디오 샘플의 교란된 내부 표현은 또한 오디오 샘플이 오디오 특징을 포함하거나 포함하지 않는지의 여부를 결정하기 위해 오디오 특징 검출 모델에 의해 프로세싱된다. 오디오 특징 검출 모델이 오디오 샘플이 오디오 특징을 포함한다고 결정할 때, 기술은 오디오 샘플에 대한 응답을 생성하는 것을 포함한다.

종래 기술에 비해 개시된 기술의 적어도 하나의 기술적 장점은 개시된 기술을 사용하여, 지능형 개인 비서와 같은 디바이스가 오디오 특징을 포함하는 사용자의 하나 이상의 포지티브 오디오 샘플과 사용자의 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는 사용자의 네거티브 오디오 샘플 사이의 음향 유사성으로 인해, 사용자의 오디오 샘플에서 오디오 특징을 인식하는 감소된 위음성 레이트, 및/또는 오디오 특징을 포함하지 않는 사용자의 네거티브 오디오 샘플에서 오디오 특징을 인식하는 위양성 레이트를 나타낸다는 것이다. 감소된 위음성 레이트는 사용자에 대한 디바이스의 응답성을 개선할 수 있다. 감소된 위양성 레이트는 디바이스의 배터리 수명이나 불필요한 프로세싱을 절약할 수 있다. 게다가, 사용자가 의도하지 않을 때 디바이스가 사용자의 말을 듣고 응답하는 레이트가 감소하기 때문에 사용자와 지능형 개인 비서 사이의 상호 작용이 개선되어, 더 높은 신뢰도의 사용자 경험을 야기한다. 이 기술적 장점은 종래 기술 접근법에 비해 하나 이상의 기술적 개선을 제공한다.

1. 일부 실시형태에서, 오디오 특징 검출 모델을 위한 사용자 특정 교란 생성기를 트레이닝하는 컴퓨터 구현 방법은, 사용자의 하나 이상의 포지티브 오디오 샘플을 수신하는 단계로서, 상기 하나 이상의 포지티브 오디오 샘플의 각각은 오디오 특징을 포함하는, 상기 하나 이상의 포지티브 오디오 샘플을 수신하는 단계; 상기 사용자의 하나 이상의 네거티브(negative) 오디오 샘플을 수신하는 단계로서, 상기 하나 이상의 네거티브 오디오 샘플의 각각은 상기 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는, 상기 하나 이상의 네거티브 오디오 샘플을 수신하는 단계; 및 사용자 특정 교란을 생성하기 위해 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계로서, 상기 하나 이상의 포지티브 오디오 샘플 및 상기 하나 이상의 네거티브 오디오 샘플에 기초하는, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계를 포함하되, 상기 사용자 특정 교란을 통한 상기 사용자의 오디오 샘플의 교란은 오디오 특징 검출 모델로 하여금 상기 오디오 특징을 포함하는 상기 사용자의 오디오 샘플에서 상기 오디오 특징을 인식하게 하고 상기 오디오 특징을 포함하지 않는 상기 사용자의 오디오 샘플에서 상기 오디오 특징을 인식하는 것을 억제하게 한다.

2. 조항 1에 있어서, 상기 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는 하나 이상의 네거티브 오디오 샘플의 저장된 세트로부터 상기 하나 이상의 네거티브 오디오 샘플의 각각을 선택하는 단계를 더 포함하는, 컴퓨터 구현 방법.

3. 조항 1 또는 2에 있어서, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계는, 상기 하나 이상의 포지티브 오디오 샘플의 교란된 포지티브 오디오 샘플을 생성하기 위해 상기 사용자 특정 교란으로 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플을 교란시키는 단계, 및 상기 오디오 특징을 포함하는 미리 결정된 오디오 샘플과 상기 하나 이상의 포지티브 오디오 샘플의 교란된 포지티브 오디오 샘플 사이의 음향 유사성을 증가시키는 오디오 샘플 교란을 생성하기 위해 상기 사용자 특정 교란 생성기 모델을 조정하는 단계를 더 포함하는, 컴퓨터 구현 방법.

4. 조항 1 내지 3 중 어느 하나에 있어서, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계는, 교란된 포지티브 오디오 샘플을 생성하기 위해 상기 사용자 특정 교란으로 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플을 교란시키는 단계, 교란된 네거티브 오디오 샘플을 생성하기 위해 상기 사용자 특정 교란으로 상기 하나 이상의 네거티브 오디오 샘플 중 제1 네거티브 오디오 샘플을 교란시키는 단계, 및 상기 교란된 포지티브 오디오 샘플과 상기 교란된 네거티브 오디오 샘플 사이의 음향 유사성을 감소시키는 오디오 샘플 교란을 생성하기 위해 상기 사용자 특정 교란 생성기 모델을 조정하는 단계를 더 포함하는, 컴퓨터 구현 방법.

5. 조항 1 내지 4 중 어느 하나에 있어서, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계는, 상기 제1 포지티브 오디오 샘플의 교란된 내부 표현을 생성하기 위해 상기 사용자 특정 교란으로 오디오 특징 검출 모델 내의 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플의 내부 표현을 교란시키는 단계, 및 상기 오디오 특징을 포함하는 미리 결정된 오디오 샘플의 내부 표현과 상기 제1 포지티브 오디오 샘플의 교란된 내부 표현 사이의 유사성을 증가시키는 내부 표현 교란을 생성하기 위해 상기 사용자 특정 교란 생성기 모델을 조정하는 단계를 더 포함하는, 컴퓨터 구현 방법.

6. 조항 1 내지 5 중 어느 하나에 있어서, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계는, 상기 제1 포지티브 오디오 샘플의 교란된 내부 표현을 생성하기 위해 상기 사용자 특정 교란으로 오디오 특징 검출 모델 내의 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플의 내부 표현을 교란시키는 단계, 상기 제1 네거티브 오디오 샘플의 교란된 내부 표현을 생성하기 위해 상기 사용자 특정 교란으로 상기 오디오 특징 검출 모델 내의 상기 하나 이상의 네거티브 오디오 샘플 중 제1 네거티브 오디오 샘플의 내부 표현을 교란시키는 단계, 및 상기 제1 포지티브 오디오 샘플의 교란된 내부 표현과 상기 제1 네거티브 오디오 샘플의 교란된 내부 표현 사이의 유사성을 감소시키는 내부 표현 교란을 생성하기 위해 상기 사용자 특정 교란 생성기 모델을 조정하는 단계를 더 포함하는, 컴퓨터 구현 방법.

7. 조항 1 내지 6 중 어느 하나에 있어서, 상기 사용자 특정 교란은 상기 사용자의 교란된 오디오 샘플을 생성하기 위해 상기 사용자의 오디오 샘플이 교란될 오디오 샘플 교란인, 컴퓨터 구현 방법.

8. 조항 1 내지 7 중 어느 하나에 있어서, 상기 사용자 특정 교란 생성기 모델에 의해, 상기 사용자 특정 교란을 오디오 샘플 교란으로서 생성하는 단계; 및 상기 오디오 샘플 교란을 오디오 특징 검출 모델로 전송하는 단계로서, 상기 오디오 샘플 교란에 의해 교란된 상기 사용자의 오디오 샘플에 기초한 교란된 오디오 샘플은 상기 오디오 샘플이 상기 오디오 특징을 포함하는지의 여부를 결정하기 위해 상기 오디오 특징 검출 모델에 의해 분류되는, 상기 전송하는 단계를 더 포함하는, 컴퓨터 구현 방법.

9. 조항 1 내지 8 중 어느 하나에 있어서, 상기 사용자 특정 교란으로 상기 사용자의 오디오 샘플을 교란시켜, 교란된 오디오 샘플을 생성하는 단계; 및 상기 교란된 오디오 샘플을 오디오 특징 검출 모델로 전송하는 단계로서, 상기 교란된 오디오 샘플은 상기 오디오 샘플이 상기 오디오 특징을 포함하는지의 여부를 결정하기 위해 상기 오디오 특징 검출 모델에 의해 분류되는, 상기 전송하는 단계를 더 포함하는, 컴퓨터 구현 방법.

10. 조항 1 내지 9 중 어느 하나에 있어서, 상기 사용자 특정 교란은 오디오 특징 검출 모델 내의 상기 사용자의 오디오 샘플의 내부 표현이 상기 사용자의 오디오 샘플의 교란된 내부 표현을 생성하기 위해 교란될 내부 표현 교란인, 컴퓨터 구현 방법.

11. 일부 실시형태에서, 비일시적 컴퓨터 판독 가능한 매체는, 명령어를 저장하며, 상기 명령어는 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 사용자의 하나 이상의 포지티브 오디오 샘플을 수신하는 단계로서, 상기 하나 이상의 포지티브 오디오 샘플의 각각은 오디오 특징을 포함하는, 상기 하나 이상의 포지티브 오디오 샘플을 수신하는 단계; 상기 사용자의 하나 이상의 네거티브 오디오 샘플을 수신하는 단계로서, 상기 하나 이상의 네거티브 오디오 샘플의 각각은 상기 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는, 상기 하나 이상의 네거티브 오디오 샘플을 수신하는 단계; 및 사용자 특정 교란을 생성하기 위해 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계로서, 상기 하나 이상의 포지티브 오디오 샘플 및 상기 하나 이상의 네거티브 오디오 샘플에 기초하는, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계를 수행하게 하되, 상기 사용자 특정 교란을 통한 상기 사용자의 오디오 샘플의 교란은 오디오 특징 검출 모델로 하여금 상기 오디오 특징을 포함하는 상기 사용자의 오디오 샘플에서 상기 오디오 특징을 인식하게 하고 상기 오디오 특징을 포함하지 않는 상기 사용자의 오디오 샘플에서 상기 오디오 특징을 인식하는 것을 억제하게 한다.

12. 조항 11에 있어서, 상기 사용자로부터 수신된 상기 하나 이상의 포지티브 오디오 샘플에 기초하여 상기 하나 이상의 네거티브 오디오 샘플의 각각을 선택하는 것을 더 포함하는, 비일시적 컴퓨터 판독 가능한 매체.

13. 조항 11 또는 12에 있어서, 상기 하나 이상의 네거티브 오디오 샘플의 각각은, 사용자의 억양, 사용자의 방언 또는 사용자의 말투 중 하나 이상에 기초하여 상기 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는 상기 사용자의 구두 표현인, 비일시적 컴퓨터 판독 가능한 매체.

14. 조항 11 내지 13 중 어느 하나에 있어서, 상기 사용자의 하나 이상의 네거티브 오디오 샘플을 수신하는 단계는, 상기 사용자에게 상기 하나 이상의 네거티브 오디오 샘플을 제공하도록 요청하는 단계를 더 포함하는, 비일시적 컴퓨터 판독 가능한 매체.

15. 조항 11 내지 14 중 어느 하나에 있어서, 상기 사용자 특정 교란은 상기 사용자의 교란된 오디오 샘플을 생성하기 위해 상기 사용자의 오디오 샘플이 교란될 오디오 샘플 교란인, 비일시적 컴퓨터 판독 가능한 매체.

16. 조항 11 내지 15 중 어느 하나에 있어서, 상기 사용자 특정 교란은 오디오 특징 검출 모델 내의 상기 사용자의 오디오 샘플의 내부 표현이 상기 사용자의 오디오 샘플의 교란된 내부 표현을 생성하기 위해 교란될 내부 표현 교란인, 비일시적 컴퓨터 판독 가능한 매체.

17. 조항 11 내지 16 중 어느 하나에 있어서, 상기 음향 유사성은, 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플의 주파수 스펙트럼과 상기 하나 이상의 네거티브 오디오 샘플 중 제1 네거티브 오디오 샘플의 주파수 스펙트럼 간의 주파수 스펙트럼 차이(frequency spectrum difference)로서, 주파수 스펙트럼 차이 역치 내에 있는, 상기 주파수 스펙트럼 차이, 또는 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플의 음소 시퀀스와 상기 하나 이상의 네거티브 오디오 샘플 중 제1 네거티브 오디오 샘플의 음소 시퀀스 간의 음소 시퀀스 차이로서, 음소 시퀀스 차이 역치 내에 있는, 상기 음소 시퀀스 차이 중 적어도 하나인, 비일시적 컴퓨터 판독 가능한 매체.

18. 일부 실시형태에서, 사용자와 디바이스 사이의 상호 작용을 결정하는 시스템은, 명령어를 저장하는 메모리 및 하나 이상의 프로세서를 포함하되, 상기 하나 이상의 프로세서는, 사용자로부터 오디오 샘플을 수신하는 단계; 상기 사용자와 연관된 사용자 특정 교란을 수신하는 단계; 및 상기 오디오 샘플 및 상기 사용자 특정 교란에 기초하여 상기 오디오 샘플이 오디오 특징을 포함하는지의 여부를 결정하는 단계를 수행하는 상기 명령어를 실행한다.

19. 조항 18에 있어서, 상기 사용자 특정 교란은 오디오 샘플 교란이고; 그리고 상기 오디오 샘플이 상기 오디오 특징을 포함하는지의 여부를 결정하는 단계는, 상기 오디오 샘플 교란으로 상기 오디오 샘플을 교란시켜, 교란된 오디오 샘플을 생성하는 단계; 및 오디오 특징 검출 모델을 통해 상기 교란된 오디오 샘플을 분류하는 단계를 포함하는, 시스템.

20. 조항 18 또는 19에 있어서, 상기 사용자 특정 교란은 내부 표현 교란이고; 그리고 상기 오디오 샘플이 상기 오디오 특징을 포함하는지의 여부를 결정하는 단계는, 상기 오디오 샘플의 내부 표현을 생성하기 위해 오디오 특징 검출 모델을 통해 상기 오디오 샘플을 프로세싱하는 단계; 교란된 내부 표현을 생성하기 위해 상기 내부 표현 교란으로 상기 내부 표현을 교란시키는 단계; 및 상기 오디오 특징 검출 모델을 통해 상기 교란된 내부 표현을 분류하는 단계를 포함하는, 시스템.

임의의 방식으로, 청구항 중 임의의 것에 인용된 청구항 요소 중 임의의 것 및/또는 본 명세서에서 설명된 임의의 요소의 임의의 및 모든 조합은 본 발명 및 보호의 고려된 범위 내에 있다.

다양한 실시형태의 설명은 예시의 목적을 위해 제공되었지만, 완전한 것으로 또는 개시된 실시형태로 제한되도록 의도되지 않는다. 설명된 실시형태의 범위 및 사상을 벗어나지 않고 많은 수정 및 변형이 당업자에게 명백할 것이다.

본 실시형태의 양태는 시스템, 방법, 또는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 그에 따라, 본 발명의 양태는 전체 하드웨어 실시형태, 전체 소프트웨어 실시형태(펌웨어, 상주 소프트웨어, 마이크로코드, 등을 포함함) 또는 전부 일반적으로 본 명세서에서 "모듈", "시스템" 또는 "컴퓨터"로서 언급될 수 있는 소프트웨어 및 하드웨어 양태를 조합하는 일 실시형태의 형태를 취할 수 있다. 게다가, 본 발명에서 설명된 임의의 하드웨어 및/또는 소프트웨어 기술, 프로세스, 기능, 구성요소, 엔진, 모듈 또는 시스템은 회로 또는 회로의 세트로서 구현될 수 있다. 또한, 본 발명의 양태는 컴퓨터 판독 가능한 프로그램 코드가 구현된 하나 이상의 컴퓨터 판독 가능한 매체(들)에 구현된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.

하나 이상의 컴퓨터 판독 가능한 매체(들)의 임의의 조합이 활용될 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체 또는 컴퓨터 판독 가능한 저장 매체일 수 있다. 컴퓨터 판독 가능한 저장 매체는, 예를 들면, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 디바이스, 또는 상기 언급한 것의 임의의 적합한 조합일 수 있지만 이로 제한되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더 특정한 예(완전하지 않은 목록)는 다음을 포함할 것이다: 하나 이상의 와이어를 가지는 전기 연결부, 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 삭제 가능한 프로그래밍 가능한 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 상기 언급한 것의 임의의 적합한 조합. 이 문서의 맥락에서, 컴퓨터 판독 가능한 저장 매체는 명령어 실행 시스템, 장치, 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 프로그램을 포함하거나, 저장할 수 있는 임의의 유형의 매체일 수 있다.

본 발명의 양태는 본 발명의 실시형태에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 예시 및/또는 블록도를 참조하여 상기 설명된다. 흐름도 예시 및/또는 블록도의 각각의 블록, 및 흐름도 예시 및/또는 블록도의 블록의 조합이 컴퓨터 프로그램 명령어에 의해 구현될 수 있음이 이해될 것이다. 이 컴퓨터 프로그램 명령어는 기계를 생산하기 위해 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그래밍 가능한 데이터 프로세싱 장치의 프로세서에 제공될 수 있다. 컴퓨터의 프로세서 또는 다른 프로그래밍 가능한 데이터 프로세싱 장치를 통해 실행될 때, 명령어는 흐름도 및/또는 블록도 블록 또는 블록들에 명시된 기능/동작의 구현을 가능하게 한다. 이러한 프로세서는 제한 없이, 범용 프로세서, 특수 목적 프로세서, 애플리케이션 특정 프로세서, 또는 필드 프로그래밍 가능한 게이트 어레이일 수 있다.

도면의 흐름도 및 블록도는 본 발명의 다양한 실시형태에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능, 및 동작을 도시한다. 이와 관련하여, 흐름도 또는 블록도의 각각의 블록은 모듈, 세그먼트, 또는 명시된 논리 기능(들)을 구현하기 위한 하나 이상의 실행 가능한 명령어를 포함하는 코드의 일부를 표현할 수 있다. 일부 대안적인 구현에서, 블록에 언급된 기능이 도면에 언급된 순서와 다르게 발생할 수 있다는 점에 또한 유의해야 한다. 예를 들면, 연속적으로 도시된 2개의 블록은 실제로, 실질적으로 동시에 실행될 수 있거나, 블록은 관련된 기능에 의존하여, 때때로 역순으로 실행될 수 있다. 블록도 및/또는 흐름도 예시의 각각의 블록, 및 블록도 및/또는 흐름도 예시의 블록의 조합이 명시된 기능 또는 동작을 수행하는 특수 목적 하드웨어 기반 시스템, 또는 특수 목적 하드웨어와 컴퓨터 명령어의 조합에 의해 구현될 수 있음을 또한 유의해야 할 것이다

상기 내용이 본 발명의 실시형태에 관한 것이지만, 본 발명의 다른 및 추가의 실시형태는 이의 기본 범위를 벗어나지 않고 고안될 수 있고, 이의 범위는 다음의 청구범위에 의해 결정된다.

Claims

오디오 특징 검출 모델을 위한 사용자 특정 교란 생성기(user-specific perturbation generator)를 트레이닝하는 컴퓨터 구현 방법으로서,
사용자의 하나 이상의 포지티브(positive) 오디오 샘플을 수신하는 단계로서, 상기 하나 이상의 포지티브 오디오 샘플의 각각은 오디오 특징을 포함하는, 상기 하나 이상의 포지티브 오디오 샘플을 수신하는 단계;
상기 사용자의 하나 이상의 네거티브(negative) 오디오 샘플을 수신하는 단계로서, 상기 하나 이상의 네거티브 오디오 샘플의 각각은 상기 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는, 상기 하나 이상의 네거티브 오디오 샘플을 수신하는 단계; 및
사용자 특정 교란을 생성하기 위해 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계로서, 상기 트레이닝은 상기 하나 이상의 포지티브 오디오 샘플 및 상기 하나 이상의 네거티브 오디오 샘플에 기초하는, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계
를 포함하되, 상기 사용자 특정 교란을 통한 상기 사용자의 오디오 샘플의 교란은 오디오 특징 검출 모델로 하여금 상기 오디오 특징을 포함하는 상기 사용자의 오디오 샘플에서 상기 오디오 특징을 인식하게 하고 상기 오디오 특징을 포함하지 않는 상기 사용자의 오디오 샘플에서 상기 오디오 특징을 인식하는 것을 억제하게 하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는 하나 이상의 네거티브 오디오 샘플의 저장된 세트로부터 상기 하나 이상의 네거티브 오디오 샘플의 각각을 선택하는 단계를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계는,
상기 하나 이상의 포지티브 오디오 샘플의 교란된 포지티브 오디오 샘플을 생성하기 위해 상기 사용자 특정 교란으로 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플을 교란시키는 단계, 및
상기 오디오 특징을 포함하는 미리 결정된 오디오 샘플과 상기 하나 이상의 포지티브 오디오 샘플의 교란된 포지티브 오디오 샘플 사이의 음향 유사성을 증가시키는 오디오 샘플 교란을 생성하기 위해 상기 사용자 특정 교란 생성기 모델을 조정하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계는,
교란된 포지티브 오디오 샘플을 생성하기 위해 상기 사용자 특정 교란으로 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플을 교란시키는 단계,
교란된 네거티브 오디오 샘플을 생성하기 위해 상기 사용자 특정 교란으로 상기 하나 이상의 네거티브 오디오 샘플 중 제1 네거티브 오디오 샘플을 교란시키는 단계, 및
상기 교란된 포지티브 오디오 샘플과 상기 교란된 네거티브 오디오 샘플 사이의 음향 유사성을 감소시키는 오디오 샘플 교란을 생성하기 위해 상기 사용자 특정 교란 생성기 모델을 조정하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계는,
상기 제1 포지티브 오디오 샘플의 교란된 내부 표현을 생성하기 위해 상기 사용자 특정 교란으로 오디오 특징 검출 모델 내의 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플의 내부 표현을 교란시키는 단계, 및
상기 오디오 특징을 포함하는 미리 결정된 오디오 샘플의 내부 표현과 상기 제1 포지티브 오디오 샘플의 교란된 내부 표현 사이의 유사성을 증가시키는 내부 표현 교란을 생성하기 위해 상기 사용자 특정 교란 생성기 모델을 조정하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계는,
상기 제1 포지티브 오디오 샘플의 교란된 내부 표현을 생성하기 위해 상기 사용자 특정 교란으로 오디오 특징 검출 모델 내의 상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플의 내부 표현을 교란시키는 단계,
상기 제1 네거티브 오디오 샘플의 교란된 내부 표현을 생성하기 위해 상기 사용자 특정 교란으로 상기 오디오 특징 검출 모델 내의 상기 하나 이상의 네거티브 오디오 샘플 중 제1 네거티브 오디오 샘플의 내부 표현을 교란시키는 단계, 및
상기 제1 포지티브 오디오 샘플의 교란된 내부 표현과 상기 제1 네거티브 오디오 샘플의 교란된 내부 표현 사이의 유사성을 감소시키는 내부 표현 교란을 생성하기 위해 상기 사용자 특정 교란 생성기 모델을 조정하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사용자 특정 교란은 상기 사용자의 교란된 오디오 샘플을 생성하기 위해 상기 사용자의 오디오 샘플이 교란될 오디오 샘플 교란인, 컴퓨터 구현 방법.
제1항에 있어서,
상기 사용자 특정 교란 생성기 모델에 의해, 상기 사용자 특정 교란을 오디오 샘플 교란으로서 생성하는 단계; 및
상기 오디오 샘플 교란을 오디오 특징 검출 모델로 전송하는 단계로서, 상기 오디오 샘플 교란에 의해 교란된 상기 사용자의 오디오 샘플에 기초한 교란된 오디오 샘플은 상기 오디오 샘플이 상기 오디오 특징을 포함하는지의 여부를 결정하기 위해 상기 오디오 특징 검출 모델에 의해 분류되는, 상기 전송하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서,
상기 사용자 특정 교란으로 상기 사용자의 오디오 샘플을 교란시켜, 교란된 오디오 샘플을 생성하는 단계; 및
상기 교란된 오디오 샘플을 오디오 특징 검출 모델로 전송하는 단계로서, 상기 교란된 오디오 샘플은 상기 오디오 샘플이 상기 오디오 특징을 포함하는지의 여부를 결정하기 위해 상기 오디오 특징 검출 모델에 의해 분류되는, 상기 전송하는 단계
를 더 포함하는, 컴퓨터 구현 방법.
제1항에 있어서, 상기 사용자 특정 교란은 오디오 특징 검출 모델 내의 상기 사용자의 오디오 샘플의 내부 표현이 상기 사용자의 오디오 샘플의 교란된 내부 표현을 생성하기 위해 교란될 내부 표현 교란인, 컴퓨터 구현 방법.
명령어를 저장하는 비일시적 컴퓨터 판독 가능한 매체로서, 상기 명령어는 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
사용자의 하나 이상의 포지티브 오디오 샘플을 수신하는 단계로서, 상기 하나 이상의 포지티브 오디오 샘플의 각각은 오디오 특징을 포함하는, 상기 하나 이상의 포지티브 오디오 샘플을 수신하는 단계;
상기 사용자의 하나 이상의 네거티브 오디오 샘플을 수신하는 단계로서, 상기 하나 이상의 네거티브 오디오 샘플의 각각은 상기 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는, 상기 하나 이상의 네거티브 오디오 샘플을 수신하는 단계; 및
사용자 특정 교란을 생성하기 위해 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계로서, 상기 트레이닝은 상기 하나 이상의 포지티브 오디오 샘플 및 상기 하나 이상의 네거티브 오디오 샘플에 기초하는, 상기 사용자 특정 교란 생성기 모델을 적대적으로 트레이닝하는 단계
를 수행하게 하되, 상기 사용자 특정 교란을 통한 상기 사용자의 오디오 샘플의 교란은 오디오 특징 검출 모델로 하여금 상기 오디오 특징을 포함하는 상기 사용자의 오디오 샘플에서 상기 오디오 특징을 인식하게 하고 상기 오디오 특징을 포함하지 않는 상기 사용자의 오디오 샘플에서 상기 오디오 특징을 인식하는 것을 억제하게 하는, 비일시적 컴퓨터 판독 가능한 매체.
제11항에 있어서, 상기 사용자로부터 수신된 상기 하나 이상의 포지티브 오디오 샘플에 기초하여 상기 하나 이상의 네거티브 오디오 샘플의 각각을 선택하는 것을 더 포함하는, 비일시적 컴퓨터 판독 가능한 매체.
제11항에 있어서, 상기 하나 이상의 네거티브 오디오 샘플의 각각은, 하기 중 하나 이상에 기초하여 상기 하나 이상의 포지티브 오디오 샘플 중 적어도 하나와 음향 유사성을 공유하는 상기 사용자의 구두 표현인, 비일시적 컴퓨터 판독 가능한 매체:
상기 사용자의 억양,
상기 사용자의 방언 또는
상기 사용자의 말투.
제11항에 있어서, 상기 사용자의 하나 이상의 네거티브 오디오 샘플을 수신하는 단계는, 상기 사용자에게 상기 하나 이상의 네거티브 오디오 샘플을 제공하도록 요청하는 단계를 더 포함하는, 비일시적 컴퓨터 판독 가능한 매체.
제11항에 있어서, 상기 사용자 특정 교란은 상기 사용자의 교란된 오디오 샘플을 생성하기 위해 상기 사용자의 오디오 샘플이 교란될 오디오 샘플 교란인, 비일시적 컴퓨터 판독 가능한 매체.
제11항에 있어서, 상기 사용자 특정 교란은 오디오 특징 검출 모델 내의 상기 사용자의 오디오 샘플의 내부 표현이 상기 사용자의 오디오 샘플의 교란된 내부 표현을 생성하기 위해 교란될 내부 표현 교란인, 비일시적 컴퓨터 판독 가능한 매체.
제11항에 있어서, 상기 음향 유사성은,
상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플의 주파수 스펙트럼과 상기 하나 이상의 네거티브 오디오 샘플 중 제1 네거티브 오디오 샘플의 주파수 스펙트럼 간의 주파수 스펙트럼 차이(frequency spectrum difference)로서, 주파수 스펙트럼 차이 역치 내에 있는, 상기 주파수 스펙트럼 차이, 또는
상기 하나 이상의 포지티브 오디오 샘플 중 제1 포지티브 오디오 샘플의 음소 시퀀스와 상기 하나 이상의 네거티브 오디오 샘플 중 제1 네거티브 오디오 샘플의 음소 시퀀스 간의 음소 시퀀스 차이로서, 음소 시퀀스 차이 역치 내에 있는, 상기 음소 시퀀스 차이
중 적어도 하나인, 비일시적 컴퓨터 판독 가능한 매체.
사용자와 디바이스 사이의 상호 작용을 결정하는 시스템으로서,
명령어를 저장하는 메모리, 및
하나 이상의 프로세서
를 포함하되, 상기 하나 이상의 프로세서는,
사용자로부터 오디오 샘플을 수신하는 단계;
상기 사용자와 연관된 사용자 특정 교란을 수신하는 단계; 및
상기 오디오 샘플 및 상기 사용자 특정 교란에 기초하여 상기 오디오 샘플이 오디오 특징을 포함하는지의 여부를 결정하는 단계
를 수행하는 상기 명령어를 실행하는, 시스템.
제18항에 있어서,
상기 사용자 특정 교란은 오디오 샘플 교란이고; 그리고
상기 오디오 샘플이 상기 오디오 특징을 포함하는지의 여부를 결정하는 단계는,
상기 오디오 샘플 교란으로 상기 오디오 샘플을 교란시켜, 교란된 오디오 샘플을 생성하는 단계; 및
오디오 특징 검출 모델을 통해 상기 교란된 오디오 샘플을 분류하는 단계
를 포함하는, 시스템.
제18항에 있어서,
상기 사용자 특정 교란은 내부 표현 교란이고; 그리고
상기 오디오 샘플이 상기 오디오 특징을 포함하는지의 여부를 결정하는 단계는,
상기 오디오 샘플의 내부 표현을 생성하기 위해 오디오 특징 검출 모델을 통해 상기 오디오 샘플을 프로세싱하는 단계;
교란된 내부 표현을 생성하기 위해 상기 내부 표현 교란으로 상기 내부 표현을 교란시키는 단계; 및
상기 오디오 특징 검출 모델을 통해 상기 교란된 내부 표현을 분류하는 단계
를 포함하는, 시스템.