KR102664371B1 - 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 시스템 및 방법 - Google Patents

음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 시스템 및 방법 Download PDF

Info

Publication number
KR102664371B1
KR102664371B1 KR1020227000057A KR20227000057A KR102664371B1 KR 102664371 B1 KR102664371 B1 KR 102664371B1 KR 1020227000057 A KR1020227000057 A KR 1020227000057A KR 20227000057 A KR20227000057 A KR 20227000057A KR 102664371 B1 KR102664371 B1 KR 102664371B1
Authority
KR
South Korea
Prior art keywords
data processing
processing system
request
links
application
Prior art date
Application number
KR1020227000057A
Other languages
English (en)
Other versions
KR20220017464A (ko
Inventor
알렉스 맥스웰
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20220017464A publication Critical patent/KR20220017464A/ko
Application granted granted Critical
Publication of KR102664371B1 publication Critical patent/KR102664371B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 시스템 및 방법이 제공된다. 시스템은 애플리케이션 개발자 컴퓨팅 장치로부터 음성 기반 소프트웨어 애플리케이션을 생성하라는 요청을 수신할 수 있다. 요청은 음성 기반 소프트웨어 애플리케이션에 의해 제공되는 서비스와 연관된 URL(Uniform Resource Locator) 및 URL에 대응하는 식별자를 포함할 수 있다. 시스템은 URL을 타겟으로 포함하는 복수의 링크를 식별할 수 있다. 시스템은 URL에 대한 식별자에 대한 참조를 포함하는 각각의 문자열을 갖는 복수의 링크의 서브세트를 결정할 수 있다. 데이터 처리 시스템은 복수의 링크의 서브세트를 임계치와 비교하여 매치 레벨을 결정할 수 있고, 매치 레벨에 기초하여 요청의 검증 상태를 결정할 수 있다.

Description

음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 시스템 및 방법
본 명세서는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템 및 방법에 관한 것이다.
애플리케이션은 컴퓨팅 장치에 설치될 수 있다. 컴퓨팅 장치는 애플리케이션을 실행할 수 있다.
본 개시물의 적어도 하나의 양태는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템에 관한 것이다. 시스템은 적어도 하나의 요청 관리 컴포넌트, 적어도 하나의 링크 관리 컴포넌트, 적어도 하나의 요청 검증 컴포넌트, 적어도 하나의 프로세서 및 메모리를 포함하는 데이터 처리 시스템을 포함할 수 있다. 데이터 처리 시스템의 적어도 하나의 요청 관리 컴포넌트는 애플리케이션 개발자 컴퓨팅 장치로부터 음성 기반 소프트웨어 애플리케이션을 생성하기 위한 요청을 수신할 수 있다. 요청은 음성 기반 소프트웨어 애플리케이션에 의해 제공되는 서비스와 연관된 URL 및 URL에 대응하는 식별자를 포함할 수 있다. 데이터 처리 시스템의 적어도 하나의 링크 관리 컴포넌트는 복수의 웹 페이지의 인덱스로부터 URL을 타겟으로 포함하는 복수의 HTTP(또는 다른 프로토콜) 링크를 식별할 수 있다. 각 링크는 해당 문자열을 포함할 수 있다. 데이터 처리 시스템은 URL에 대응하는 식별자에 대한 참조를 포함하는 각각의 문자열을 갖는 복수의 링크의 서브세트를 결정하기 위해 복수의 링크의 각 링크의 각각의 문자열을 파싱할 수 있다. 데이터 처리 시스템은 복수의 링크의 서브세트를 임계치와 비교하여 매치 레벨을 결정할 수 있다. 데이터 처리 시스템의 적어도 하나의 요청 검증 컴포넌트는 매치 레벨에 기초하여 요청의 검증 상태를 결정할 수 있다. 데이터 처리 시스템은 요청의 검증 상태가 요청이 검증되었음을 나타내는 것으로 결정하는 것에 응답하여 음성 기반 소프트웨어 애플리케이션에 트리거 키워드를 할당할 수 있다. 데이터 처리 시스템은 모바일 컴퓨팅 장치로부터 트리거 키워드에 대응하는 오디오 입력을 수신할 수 있다. 데이터 처리 시스템은 트리거 키워드에 대응하는 오디오 입력 수신에 응답하여 음성 기반 소프트웨어 애플리케이션이 모바일 컴퓨팅 장치에서 실행되게 할 수 있다.
데이터 처리 시스템은 요청에 포함된 식별자에 기초하여 적어도 하나의 대체 식별자를 결정하고; 그리고 각각의 문자열이 대체 식별자에 대한 참조를 포함하고 식별자에 대한 참조를 포함하지 않는 적어도 하나의 링크를 포함하도록 복수의 링크의 서브세트를 결정하도록 구성된다.
데이터 처리 시스템은, 제1 백분율에 대응하도록 임계치를 결정하고; 서브세트에 포함된 복수의 링크의 일부를 포함하는 제2 백분율을 결정하고; 제2 백분율을 제1 백분율과 비교하여 매치 레벨을 결정한다.
데이터 처리 시스템은 복수의 링크에 포함된 링크의 수에 기초하여 임계치에 대한 값을 결정할 수 있다.
데이터 처리 시스템은 자연어 프로세싱을 사용하여 복수의 링크의 각 링크의 각각의 문자열을 파싱할 수 있다.
데이터 처리 시스템은: 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청과 연관된 위험 레벨을 결정하고; 그리고 위험 레벨에 기초하여 임계치에 대한 값을 결정한다.
데이터 처리 시스템은 음성 기반 소프트웨어 애플리케이션의 유형을 결정하고; 음성 기반 소프트웨어 애플리케이션의 유형과 연관된 위험 레벨을 결정하고; 그리고 위험 레벨에 기초하여 임계치에 대한 값을 결정한다.
데이터 처리 시스템은 URL을 타겟으로 포함하는 복수의 링크에 대한 요청을 프록시 컴퓨팅 장치에 전송하고; 요청에 응답하여 프록시 컴퓨팅 장치로부터 복수의 링크를 수신하도록 구성된다.
데이터 처리 시스템은 URL을 타겟으로 포함하는 복수의 링크에 대한 요청을 포함하는 RPC(Remote Procedure Call)를 서버로 전송하고; RPC에 응답하여 서버로부터 복수의 링크를 수신한다.
데이터 처리 시스템은 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청에 포함된 URL에 대응하는 최상위 도메인을 결정하고; 최상위 도메인과 연관된 하나 이상의 서브도메인을 식별하고; 그리고 타겟으로서 서브도메인에 대응하는 URL을 포함하는 적어도 하나의 링크를 포함하도록 복수의 링크를 식별하도록 구성된다.
데이터 처리 시스템은 검증 상태가 요청이 검증되었음을 나타내는 것으로 결정하는 것에 응답하여 음성 기반 소프트웨어 애플리케이션의 적어도 일부를 생성할 수 있다.
데이터 처리 시스템은, 통지가 애플리케이션 개발자 컴퓨팅 장치 상에 디스플레이되게 하기 위한 요청의 검증 상태의 통지를 애플리케이션 개발자 컴퓨팅 장치에 전송할 수 있다.
상기 데이터 처리 시스템은, 제2 애플리케이션 개발자 컴퓨팅 장치로부터, 제2 음성 기반 소프트웨어 애플리케이션을 생성하기 위한 제2 요청을 수신하고 -상기 제2 요청은 상기 제2 음성 기반 소프트웨어 애플리케이션에 의해 제공되는 제2 서비스와 연관된 제2 URL 및 상기 제2 URL에 대응하는 제2 식별자를 포함함-; 복수의 웹 페이지의 인덱스로부터, 타겟으로서 제2 URL을 포함하는 제2 복수의 HTTP 링크를 식별하고 -복수의 제2 링크의 각 링크는 각각의 문자열을 포함함-; 제2 URL에 대응하는 제2 식별자에 대한 참조를 포함하는 각각의 문자열을 갖는 복수의 제2 링크의 서브세트를 결정하기 위해 복수의 제2 링크의 각 링크의 각각의 문자열을 파싱하고; 복수의 제2 링크의 서브세트를 제2 임계치와 비교하여 제2 매치 레벨을 결정하고; 상기 제2 매치 레벨에 기초하여 제2 요청의 검증 상태를 결정하고; 그리고 상기 제2 요청이 검증되지 않았음을 상기 제2 요청의 검증 상태가 나타내는 것으로 결정하는 것에 응답하여, 제2 트리거 키워드가 상기 제2 음성 기반 소프트웨어 애플리케이션에 할당되는 것을 방지하도록 구성된다.
본 개시물의 적어도 하나의 양태는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 방법에 관한 것이다. 방법은 적어도 하나의 요청 관리 컴포넌트, 적어도 하나의 링크 관리 컴포넌트, 적어도 하나의 요청 검증 컴포넌트, 적어도 하나의 프로세서, 및 메모리를 포함하는 데이터 처리 시스템에 의해, 애플리케이션 개발자 컴퓨팅 장치로부터, 음성 기반 소프트웨어 애플리케이션을 생성하도록 하는 요청을 수신하는 단계를 포함할 수 있다. 상기 요청은 음성 기반 소프트웨어 애플리케이션에 의해 제공되는 서비스와 연관된 URL(Uniform Resource Locator) 및 상기 URL에 대응하는 식별자를 포함할 수 있다. 방법은 데이터 처리 시스템의 적어도 하나의 링크 관리 컴포넌트에 의해 복수의 웹 페이지의 인덱스로부터 URL을 타겟으로 포함하는 복수의 HTTP 링크를 식별하는 단계를 포함할 수 있다. 각 링크는 해당 문자열을 포함할 수 있다. 방법은 데이터 처리 시스템에 의해, URL에 대응하는 식별자에 대한 참조를 포함하는 각각의 문자열을 갖는 복수의 링크의 서브세트를 결정하기 위해 복수의 링크의 각각의 링크의 각각의 문자열을 파싱하는 단계를 포함할 수 있다. 방법은 데이터 처리 시스템에 의해 복수의 링크의 서브세트를 임계치와 비교하여 매치 레벨을 결정하는 단계를 포함할 수 있다. 방법은 데이터 처리 시스템의 적어도 하나의 요청 검증 컴포넌트에 의해 매치 레벨에 기초하여 요청의 검증 상태를 결정하는 단계를 포함할 수 있다. 방법은 데이터 처리 시스템에 의해, 요청의 검증 상태가 요청이 검증되었음을 나타내는 것으로 결정하는 것에 응답하여, 음성 기반 소프트웨어 애플리케이션에 트리거 키워드를 할당하는 단계를 포함할 수 있다. 방법은 데이터 처리 시스템에 의해 모바일 컴퓨팅 장치로부터 트리거 키워드에 대응하는 오디오 입력을 수신하는 단계를 포함할 수 있다. 방법은 데이터 처리 시스템에 의해, 트리거 키워드에 대응하는 오디오 입력을 수신하는 것에 응답하여, 음성 기반 소프트웨어 애플리케이션이 모바일 컴퓨팅 장치 상에서 실행되게 하는 단계를 포함할 수 있다.
방법은 상기 데이터 처리 시스템에 의해, 상기 요청에 포함된 식별자에 기초하여 적어도 하나의 대체 식별자를 결정하는 단계; 그리고 상기 데이터 처리 시스템에 의해, 각각의 문자열이 상기 대체 식별자에 대한 참조를 포함하고 그리고 상기 식별자에 대한 참조를 포함하지 않는 적어도 하나의 링크를 포함하도록 복수의 링크의 서브세트를 결정하는 단계를 포함할 수 있다.
방법은, 상기 데이터 처리 시스템에 의해, 제1 백분율에 대응하는 임계치를 결정하는 단계; 상기 데이터 처리 시스템에 의해, 상기 서브세트에 포함된 복수의 링크의 일부(fraction)를 포함하는 제2 백분율을 결정하는 단계; 그리고 상기 데이터 처리 시스템에 의해, 상기 제2 백분율을 상기 제1 백분율과 비교하여 매치 레벨을 결정하는 단계를 포함할 수 있다.
방법은 데이터 처리 시스템에 의해, 복수의 링크에 포함된 링크의 수에 기초하여 임계치에 대한 값을 결정하는 단계를 더 포함할 수 있다.
방법은 데이터 처리 시스템에 의해 자연어 프로세싱을 사용하여 복수의 링크의 각 링크의 각각의 문자열을 파싱하는 단계를 더 포함할 수 있다.
방법은 데이터 처리 시스템에 의해 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청과 연관된 위험 레벨을 결정하는 단계; 및 데이터 처리 시스템에 의해, 위험 레벨에 기초하여 임계치에 대한 값을 결정하는 단계를 포함할 수 있다.
방법은 상기 데이터 처리 시스템에 의해, 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청과 연관된 위험 레벨을 결정하는 단계; 그리고 상기 데이터 처리 시스템에 의해, 상기 위험 레벨에 기초하여 임계치에 대한 값을 결정하는 단계를 포함할 수 있다.
이들 및 기타 양태 및 구현은 아래에서 상세히 설명된다. 전술한 정보 및 다음의 상세한 설명은 다양한 양태 및 구현의 예시적인 예를 포함하고 청구된 양태 및 구현의 특성 및 특성을 이해하기 위한 개요 또는 프레임워크를 제공한다. 도면은 다양한 양태 및 구현에 대한 예시 및 추가 이해를 제공하고, 본 명세서에 통합되고 본 명세서의 일부를 구성한다.
첨부 도면은 축척에 맞게 그려지도록 의도된 것이 아니다. 다양한 도면에서 유사한 참조 번호 및 명칭은 유사한 요소를 나타낸다. 명확성을 위해 모든 컴포넌트에 모든 도면에 레이블이 지정되지 않을 수 있다. 도면에서:
도 1은 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 예시적인 시스템의 예시이다.
도 2는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템의 예시적인 동작의 예시이다.
도 3은 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 예시적인 방법의 예시이다.
도 4는 예를 들어, 도 1 내지 도 2에 도시된 시스템, 도 3에 도시된 방법을 포함하여, 본 명세서에 기술되고 예시된 시스템 및 방법의 요소를 구현하기 위해 사용될 수 있는 컴퓨터 시스템에 대한 일반적인 아키텍처를 예시하는 블록도이다.
다음은 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 방법, 장치 및 시스템과 연관된 다양한 개념 및 구현에 대한 보다 상세한 설명이다. 위에서 소개되고 아래에서 더 자세히 설명되는 다양한 개념은 다양한 방식으로 구현될 수 있다.
본 개시는 일반적으로 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 것에 관한 것이다. 애플리케이션 개발자는 음향 기반 컴포넌트가 있는 소프트웨어 애플리케이션을 개발할 수 있다. 이러한 애플리케이션은 최종 사용자가 광범위한 기능을 수행하는 데 사용할 수 있으며, 이는 애플리케이션 개발자가 제공하는 하나 이상의 서비스에 해당할 수 있다. 사용자는 애플리케이션과 연관된 트리거 키워드에 대응하는 오디오 입력(예를 들어, 음성 입력)을 제공함으로써 애플리케이션을 호출할 수 있다. 예를 들어, 트리거(trigger) 키워드는 애플리케이션을 개발한 애플리케이션 개발자와 연결된 엔터티의 이름일 수 있다.
애플리케이션에 대한 트리거 키워드를 올바르게 검증(확인)하는 것은 기술적으로 어려울 수 있다. 예를 들어, 일부 애플리케이션이 작동하지 않거나 제대로 작동하지 않을 수 있다. 예를 들어, 부적절하게 작동하는 애플리케이션은 애플리케이션이 사용자에게 잘못된 정보를 반환하게 하는 결함이 포함된 애플리케이션일 수 있다. 부적절하게 작동하는 애플리케이션은 또한 최종 사용자의 관점에서 신뢰할 수 있는 엔터티와 연결된 것처럼 보이지만 대신 다른 사기(부정)(fraudulent) 엔터티와 연결된 애플리케이션을 참조할 수 있는 사기성 애플리케이션일 수 있다. 예를 들어, 애플리케이션 개발자는 애플리케이션을 통해 신뢰할 수 있는 엔터티와 상호 작용하려는 사용자가 실수로 실행할 수 있는 사기성 애플리케이션을 개발하여 신뢰할 수 있는 엔터티로 가장하려고 할 수 있다. 따라서 사용자가 사기성 애플리케이션과 상호작용할 때 애플리케이션은 사용자가 기대하는 신뢰할 수 있는 엔티티가 아니라 사기성 또는 악의적인 엔티티와 연관된 서비스를 호출할 수 있다. 작동하지 않거나 부적절하게 작동하는 애플리케이션은 서버나 클라이언트 컴퓨팅 장치와 같이 애플리케이션이 실행되는 디바이스에서 프로세서 용량 및 배터리 수명과 같은 컴퓨팅 리소스를 소모할 수 있다. 작동하지 않거나 부적절하게 작동하는 애플리케이션은 이러한 애플리케이션에 액세스하는 컴퓨터를 연결하는 컴퓨터 네트워크의 네트워크 리소스를 소모하여 사용 가능한 대역폭을 줄이고 네트워크 대기 시간을 늘릴 수 있다. 본 개시의 시스템 및 방법은 음향 기반 디지털 어시스턴트 애플리케이션에 대한 키워드를 검증하기 위한 기술을 제공하며, 이는 작동하지 않거나 부적절하게 작동하는 애플리케이션에 의해 소비되는 컴퓨팅 리소스 및 네트워크 리소스를 줄이는 데 도움이 될 수 있다.
본 개시의 기술 솔루션은 자동화된 방식으로 높은 정확도로 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증할 수 있는 데이터 처리 시스템을 포함한다. 애플리케이션 개발자는 컴퓨팅 장치를 사용하여 애플리케이션을 생성하거나 제공하기 위한 요청을 제출할 수 있다. 요청에는 해당 URL(Uniform Resource Locator) 또는 다른 형태의 리소스 로케이터 또는 리소스 식별자뿐 아니라 애플리케이션과 연결된 선언된 엔터티에 대한 식별자가 포함될 수 있다. 데이터 처리 시스템은 애플리케이션 개발자 컴퓨팅 장치로부터 요청을 수신할 수 있다. 데이터 처리 시스템은 요청에 포함된 URL을 참조하는 HTTP(Hypertext Transfer Protocol) 링크 세트(또는 다른 유형의 프로토콜 또는 링크)를 식별할 수 있다. 예를 들어, 링크 세트는 인터넷 웹 페이지에 포함된 링크와 같이 공개적으로 사용 가능하거나 액세스 가능한 링크일 수 있다. 데이터 처리 시스템은 하나 이상의 원격 서버에서 유지 관리할 수 있는 웹 페이지의 인덱스에서 링크 세트를 검색할 수 있다.
데이터 처리 시스템은 식별된 링크 세트를 요청에 포함된 식별자와 비교하여 요청이 사기(fraudulent)인지 여부를 결정할 수 있다. 예를 들어, 각 링크는 대상(타겟) URL 및 텍스트 컴포넌트를 포함하거나 연결될 수 있다. 텍스트 컴포넌트는 문자열일 수 있다. 예를 들어, 링크에 대한 문자열은 링크를 시각적으로 나타내기 위해 웹 브라우저에서 렌더링된 웹 페이지에 표시되는 텍스트이거나 이에 해당할 수 있다. 데이터 처리 시스템은 각 링크에 대한 문자열이 요청과 함께 애플리케이션 개발자 컴퓨팅 장치에 의해 제공되는 식별자에 대한 참조를 포함하는지 여부를 결정하기 위해 식별된 링크 세트의 각 링크에 대한 문자열을 처리하거나 파싱할 수 있다. 데이터 처리 시스템은 각 링크의 문자열의 적어도 일부를 식별자의 적어도 일부와 일치시키려고 시도할 수 있다. 데이터 처리 시스템은 또한 하나 이상의 대체 식별자를 결정할 수 있다. 예를 들어, 대체 식별자는 요청의 일부로 애플리케이션 개발자 컴퓨팅 장치에 의해 제공되는 식별자와 동일한 엔티티를 참조하는 식별자일 수 있다. 따라서, 데이터 처리 시스템은 각 링크가 동일한 엔티티를 참조하는 식별자 또는 대체 식별자를 포함하는지 여부를 결정할 수 있다. 링크 각각이 이러한 방식으로 처리(프로세싱)된 후, 데이터 처리 시스템은 문자열이 요청의 일부로서 애플리케이션 개발자 컴퓨팅 장치에 의해 제공되는 식별자에 대한 참조를 포함하는 링크의 서브세트를 결정할 수 있다.
데이터 처리 시스템은 식별된 링크 서브세트를 사용하여 애플리케이션 개발자 컴퓨팅 장치로부터의 요청을 검증할 수 있다. 예를 들어, 데이터 처리 시스템은 URL과 애플리케이션 개발자 컴퓨팅 장치로부터의 요청에서 수신된 식별자 사이의 매치 레벨을 결정할 수 있다. 더 높거나 더 강한 매치 레벨은 합법적인(예를 들어, 사기성이 아닌) 요청의 더 큰 가능성을 나타낼 수 있는 반면, 더 낮거나 더 약한 매치 레벨은 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청이 사기성일 가능성이 더 큰 것을 나타낼 수 있다. 데이터 처리 시스템은 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청의 식별자(또는 동일한 선언된 엔티티를 참조하는 대체 식별자)에 대한 참조를 포함하는 것으로 식별된 링크의 서브세트에 부분적으로 기반하여 매치 레벨을 결정할 수 있다.
데이터 처리 시스템은 매치 레벨에 기초하여 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청의 검증 상태를 결정할 수 있다. 예를 들어, 데이터 처리 시스템은 매치 레벨을 하나 이상의 정책 또는 하나 이상의 임계치와 비교하여 검증 상태를 결정할 수 있다. 검증 상태는 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청이 승인 또는 검증되었는지 여부를 나타내는 바이너리 상태(binary status)일 수 있다. 데이터 처리 시스템은 트리거 키워드가 요청 검증(확인)에 응답하여 소프트웨어 애플리케이션과 연관되도록 할 수 있다. 이 연관의 결과로 사용자는 트리거 키워드에 해당하는 오디오 입력을 제공하여 소프트웨어 애플리케이션을 호출할 수 있다. 트리거 키워드는 선언된 엔터티 또는 그 변형일 수 있거나 포함할 수 있다. 따라서 사용자가 선언된 엔터티에 해당하는 오디오 입력을 제공할 때 사용자는 적법한(예: 사기성이 아닌) 검증된 애플리케이션을 호출할 수 있다.
데이터 처리 시스템은 또한 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청이 매치 레벨에 기초하여 검증되지 않았다고 결정할 수 있다. 예를 들어, 데이터 처리 시스템은 매치 레벨이 하나 이상의 정책 또는 하나 이상의 임계치를 충족하지 않는 것으로 결정할 수 있고, 따라서 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청을 검증되지 않은 것으로 거부할 수 있다. 검증되지 않은 요청은 요청의 매치 레벨에 기초하여 (예를 들어, 검증(확인)된 요청과 비교하여) 사기 가능성이 상대적으로 더 높은 정도를 갖는 요청에 대응할 수 있다. 요청이 검증되지 않았다는 결정에 응답하여, 데이터 처리 시스템은 트리거 키워드가 소프트웨어 애플리케이션과 연관되는 것을 방지할 수 있다. 결과적으로 사용자가 트리거 키워드에 해당하는 오디오 입력을 제공할 때 데이터 처리 시스템은 애플리케이션이 호출되지 않도록 한다. 따라서, 트리거 키워드가 애플리케이션에 대해 검증되어야 하는지 여부를 자동으로 결정함으로써, 본 개시의 시스템 및 방법은 검증되지 않은 트리거 키워드에 응답하여 실행되는 작동하지 않거나 부적절하게 작동하는 애플리케이션의 수를 줄일 수 있다. 작동하지 않거나 부적절하게 작동하는 애플리케이션의 실행을 제한함으로써, 본 개시의 시스템 및 방법은 작동하지 않거나 부적절하게 작동하는 애플리케이션에 전용되는 프로세서 용량 및 전력 사용량과 같은 컴퓨팅 리소스를 감소시킨다. 또한 사용 가능한 네트워크 대역폭을 늘리고 작동하지 않거나 부적절하게 작동하는 애플리케이션에 의해 소비되는 컴퓨터 네트워크의 대기 시간을 줄인다.
도 1은 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 예시적인 시스템(100)을 도시한다. 시스템(100)은 애플리케이션 전달 기반구조를 포함할 수 있다. 시스템(100)은 온라인 애플리케이션 스토어 또는 마켓플레이스를 포함할 수 있다. 시스템(100)은 데이터 처리 시스템(102)을 포함할 수 있다. 데이터 처리 시스템(102)은 네트워크(105)를 통해 애플리케이션 개발자 디바이스(장치)(160), 제3자 디바이스(장치)(162), 또는 클라이언트 컴퓨팅 장치(140) 중 하나 이상과 통신할 수 있다. 시스템(100)은 또한 콘텐츠 제공자 장치 또는 디지털 표면 장치와 같은 다른 장치와 통신할 수 있다.
네트워크(105)는 인터넷, 로컬, 와이드, 메트로 또는 기타 영역 네트워크, 인트라넷, 위성 네트워크, 및 음성 또는 데이터 이동 전화 네트워크와 같은 다른 통신 네트워크와 같은 컴퓨터 네트워크를 포함할 수 있다. 네트워크(105)는 랩탑, 데스크탑, 태블릿, 디지털 어시스턴트 장치, 스마트 폰, 웨어러블 장치, 휴대용 컴퓨터 또는 스피커와 같은, 적어도 하나의 클라이언트 컴퓨팅 장치(140) 상에서 제시, 출력, 렌더링 또는 표시될 수 있는 웹 페이지, 웹 사이트, 도메인 이름 또는 URL과 같은 정보 리소스에 액세스하는 데 사용될 수 있다. 예를 들어, 네트워크(105)를 통해 클라이언트 컴퓨팅 장치(140)의 사용자는 데이터 처리 시스템(102) 또는 애플리케이션 개발자 장치(160)에 의해 제공되는 정보 또는 데이터에 액세스할 수 있다.
네트워크(105)는 디스플레이 네트워크, 예를 들어 콘텐츠 배치 또는 검색 엔진 결과 시스템과 연관된 인터넷에서 이용 가능한 정보 리소스의 서브세트를 포함하거나 구성할 수 있거나, 디지털 컴포넌트 배치 캠페인의 일부로 타사(제3자) 디지털 컴포넌트를 포함할 수 있다. 네트워크(105)는 클라이언트 컴퓨팅 장치(140)에 의해 제시, 출력, 렌더링 또는 표시될 수 있는 웹 페이지, 웹 사이트, 도메인 이름, 또는 균일 자원 로케이터와 같은 정보 자원에 액세스하기 위해 데이터 처리 시스템(102)에 의해 사용될 수 있다. 예를 들어, 네트워크(105)를 통해 클라이언트 컴퓨팅 장치(140)의 사용자는 데이터 처리 시스템(102) 또는 애플리케이션 개발자 장치(160)에 의해 제공되는 정보 또는 데이터에 액세스할 수 있다.
네트워크(105)는 임의의 유형 또는 형태의 네트워크일 수 있으며, 방송 네트워크, 광역 네트워크, 근거리 통신망, 통신 네트워크, 데이터 통신 네트워크, 컴퓨터 네트워크, ATM(비동기 전송 모드) 네트워크, SONET(동기 광 네트워크) 네트워크, SDH(Synchronous Digital Hierarchy) 네트워크, 무선 네트워크와 유선 네트워크 중 임의의 것을 포함할 수 있다. 네트워크(105)는 적외선 채널 또는 위성 대역과 같은 무선 링크를 포함할 수 있다. 네트워크(105)의 토폴로지는 버스, 스타, 또는 링 네트워크 토폴로지를 포함할 수 있다. 네트워크는 고급 이동 전화 프로토콜("AMPS"), 시분할 다중 액세스("TDMA"), 코드 분할 다중 액세스("CDMA"), 이동 통신용 글로벌 시스템("GSM"), 일반 패킷 무선 서비스("GPRS") 또는 범용 이동 통신 시스템("UMTS")를 포함하여, 모바일 장치 간에 통신하는 데 사용되는 모든 프로토콜 또는 프로토콜을 사용하는 모바일 전화 네트워크를 포함할 수 있다. 서로 다른 유형의 데이터가 서로 다른 프로토콜을 통해 전송되거나 동일한 유형의 데이터가 서로 다른 프로토콜을 통해 전송될 수 있다.
시스템(100)은 적어도 하나의 데이터 처리 시스템(102)을 포함할 수 있다. 데이터 처리 시스템(102)은 네트워크(105)를 통해, 예를 들어 클라이언트 컴퓨팅 장치(140) 또는 애플리케이션 개발자 디바이스(장치)(160) 또는 다른 네트워크 디바이스 또는 제3자 디바이스(162)와 통신하기 위한 프로세서를 갖는 컴퓨팅 장치와 같은 적어도 하나의 로직 디바이스를 포함할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 계산 자원, 서버, 프로세서, 또는 메모리를 포함할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 적어도 하나의 데이터 센터에 위치한 복수의 계산 자원 또는 서버를 포함할 수 있다. 데이터 처리 시스템(102)은 논리적으로 그룹화된 복수의 서버를 포함할 수 있고 분산 컴퓨팅 기술을 용이하게 할 수 있다. 서버의 논리적 그룹은 데이터 센터, 서버 팜 또는 머신 팜이라고 할 수 있다. 서버는 지리적으로 분산될 수도 있다. 데이터 센터 또는 머신 팜은 단일 엔터티로 관리될 수 있거나 머신 팜은 복수의 머신 팜을 포함할 수 있다. 각 시스템 팜 내의 서버는 이기종일 수 있다. 하나 이상의 서버 또는 시스템은 하나 이상의 운영 체제 플랫폼 유형에 따라 작동할 수 있다.
머신 팜의 서버는 관련 스토리지 시스템과 함께 고밀도 랙 시스템에 저장할 수 있으며 엔터프라이즈 데이터 센터에 위치할 수 있다. 예를 들어, 이러한 방식으로 서버를 통합하면 로컬화된 고성능 네트워크에 서버와 고성능 스토리지 시스템을 배치하여 시스템 관리 용이성, 데이터 보안, 시스템의 물리적 보안 및 시스템 성능을 향상시킬 수 있다. 서버 및 저장 시스템을 포함하는 데이터 처리 시스템(102) 컴포넌트의 전부 또는 일부를 중앙 집중화하고 이를 고급 시스템 관리 도구와 결합하면 서버 리소스를 보다 효율적으로 사용할 수 있어 전력 및 처리 요구량을 절약하고 대역폭 사용을 줄일 수 있다.
시스템(100)은 적어도 하나의 제3자 장치(162)를 포함하거나, 액세스하거나, 그렇지 않으면 이와 상호작용할 수 있다. 제3자 장치(162)는 네트워크(105)를 통해, 예를 들어 컴퓨팅 장치(140), 데이터 처리 시스템(102), 또는 애플리케이션 개발자 장치(160)와 통신하기 위한 프로세서를 갖는 컴퓨팅 장치와 같은 적어도 하나의 논리(로직) 장치를 포함할 수 있다. 제3자 장치(162)는 적어도 하나의 계산 자원, 서버, 프로세서 또는 메모리를 포함할 수 있다. 예를 들어, 제3자 디바이스(장치)(162)는 적어도 하나의 데이터 센터에 위치한 복수의 계산 리소스 또는 서버를 포함할 수 있다.
제3자 디바이스(162)는 오디오 출력 디지털 컴포넌트로서 클라이언트 컴퓨팅 장치(140)에 의한 프리젠테이션 또는 디스플레이를 위한 오디오 기반 디지털 컴포넌트를 제공할 수 있다. 디지털 컴포넌트에는 "Would you like me to order you a taxi?(택시를 부르시겠습니까?)"라는 음성 기반 메시지와 같은 상품 또는 서비스에 대한 제안이 포함될 수 있다. 예를 들어, 제3자 장치(162)는 음성 기반 질의에 응답하여 제공될 수 있는 일련의 오디오 디지털 컴포넌트를 저장하기 위한 메모리를 포함할 수 있다. 제3자 장치(162)는 또한 오디오 기반 디지털 컴포넌트(또는 다른 디지털 컴포넌트)를 데이터 저장소(118)에 저장될 수 있는 데이터 처리 시스템(102)에 제공할 수 있다. 데이터 처리 시스템(102)은 오디오 디지털 컴포넌트를 선택하고 오디오 디지털 컴포넌트를 클라이언트 컴퓨팅 장치(140)에 제공(또는 제공하도록 제3자 디바이스(162)에 지시)할 수 있다. 오디오 기반 디지털 컴포넌트는 독점적인 오디오이거나 텍스트, 이미지 또는 비디오 데이터와 결합될 수 있다.
제3자 디바이스(162)는 데이터 처리 시스템(102)을 포함하거나, 이와 인터페이스하거나, 그렇지 않으면 통신할 수 있다. 제3자 디바이스(162)는 클라이언트 컴퓨팅 장치(140)를 포함하거나, 인터페이스하거나, 그렇지 않으면 통신할 수 있다. 제3자 디바이스(162)는 모바일 컴퓨팅 장치일 수 있는 컴퓨팅 장치(140)를 포함하거나, 인터페이스하거나, 그렇지 않으면 통신할 수 있다. 제3자 디바이스(162)는 애플리케이션 개발자 디바이스(160)를 포함하거나, 인터페이스하거나, 그렇지 않으면 통신할 수 있다. 예를 들어, 제3자 디바이스(162)는 클라이언트 컴퓨팅 장치(140)에 의한 실행을 위해 클라이언트 컴퓨팅 장치(140)에 디지털 컴포넌트를 제공할 수 있다. 제3자 디바이스(162)는 데이터 처리 시스템(102)에 의한 저장을 위해 데이터 처리 시스템(102)에 디지털 컴포넌트를 제공할 수 있다. 제3자 디바이스(162)는 디지털 컴포넌트와 연관된 규칙 또는 파라미터를 데이터 처리 시스템(102)에 제공할 수 있다.
클라이언트 컴퓨팅 장치(140)는 애플리케이션 개발자 디바이스(160)에 의해 개발된 애플리케이션을 다운로드할 수 있다. 클라이언트 컴퓨팅 장치(140)는 네트워크(105)를 통해 데이터 처리 시스템(102)으로부터 애플리케이션을 다운로드할 수 있다. 클라이언트 컴퓨팅 장치는 애플리케이션 전달 컴포넌트(110)로부터 애플리케이션을 다운로드할 수 있다. 클라이언트 컴퓨팅 장치(140)는 애플리케이션을 설치할 수 있다. 클라이언트 컴퓨팅 장치(140)는 애플리케이션을 실행할 수 있다. 클라이언트 컴퓨팅 장치(140)는 사용자 입력 또는 트리거 이벤트 또는 조건에 응답하여 애플리케이션을 실행, 시작, 트리거하거나 액세스하거나 사용할 수 있다. 애플리케이션에는 프런트 엔드 컴포넌트와 백엔드 컴포넌트가 포함될 수 있다. 클라이언트 컴퓨팅 장치(140)는 애플리케이션의 프론트-엔드 컴포넌트를 실행하거나 제공할 수 있는 반면, 데이터 처리 시스템(102) 또는 애플리케이션 개발자 디바이스(160)는 애플리케이션의 백엔드 컴포넌트를 제공한다.
클라이언트 컴퓨팅 장치(140)는 적어도 하나의 센서(144), 변환기(146), 오디오 드라이버(148), 또는 전처리기(150)를 포함하거나, 인터페이스하거나 이와 통신할 수 있다. 클라이언트 컴퓨팅 장치(140)는 광원(142) 또는 디스플레이 장치(152)를 포함할 수 있고, 광 표시기, 발광 다이오드("LED"), 유기 발광 다이오드("OLED") 또는 시각적 또는 광학적 출력을 제공하는 기타 시각적 표시기와 같은 것이다. 센서(144)는 예를 들어 주변 광 센서, 근접 센서, 온도 센서, 가속도계, 자이로스코프, 모션 검출기, GPS 센서, 위치 센서, 마이크로폰, 또는 터치 센서를 포함할 수 있다. 변환기(146)는 스피커 또는 마이크로폰을 포함할 수 있다. 오디오 드라이버(148)는 하드웨어 변환기(146)에 소프트웨어 인터페이스를 제공할 수 있다. 오디오 드라이버는 대응하는 음파 또는 음파를 생성하도록 변환기(146)를 제어하기 위해 데이터 처리 시스템(102)에 의해 제공된 오디오 파일 또는 다른 명령을 실행할 수 있다. 전처리기(150)는 키워드를 검출하고 키워드에 기초하여 동작을 수행하기 위한 하드웨어를 갖는 처리 유닛을 포함할 수 있다. 전처리기(150)는 추가 처리를 위해 데이터 처리 시스템(102)에 용어를 전송하기 전에 하나 이상의 용어를 필터링하거나 용어를 수정할 수 있다. 전처리기(150)는 마이크로폰에 의해 검출된 아날로그 오디오 신호를 디지털 오디오 신호로 변환하고, 디지털 오디오 신호를 운반하는 하나 이상의 데이터 패킷을 네트워크(105)를 통해 데이터 처리 시스템(102)으로 전송할 수 있다. 일부 경우에, 전처리기(150)는 그러한 전송을 수행하기 위한 명령을 검출하는 것에 응답하여 입력 오디오 신호의 일부 또는 전부를 운반하는 데이터 패킷을 전송할 수 있다. 명령(명령어)은 예를 들어 트리거 키워드 또는 다른 키워드 또는 입력 오디오 신호를 포함하는 데이터 패킷을 데이터 처리 시스템(102)에 전송하기 위한 승인을 포함할 수 있다.
클라이언트 컴퓨팅 장치(140)는 클라이언트 컴퓨팅 장치(140)에 오디오 입력으로서 음성 질의(쿼리)를 (센서(144)를 통해) 입력하고 그리고 변환기(146)(예: 스피커)로부터 출력되고, 데이터 처리 시스템(102)(또는 애플리케이션 개발자 디바이스(160) 또는 제3자 디바이스(162))으로부터 클라이언트 컴퓨팅 장치(140)로 제공될 수 있는 컴퓨터 생성 음성의 형태로 오디오 출력을 수신하는 최종 사용자와 연관될 수 있다. 컴퓨터 생성 음성에는 실제 사람 또는 컴퓨터 생성 언어의 녹음이 포함될 수 있다.
클라이언트 컴퓨팅 장치(140)(또는 컴퓨팅 장치, 또는 클라이언트 디바이스, 또는 디지털 디바이스)는 디스플레이를 포함하거나 포함하지 않을 수 있다. 예를 들어, 클라이언트 컴퓨팅 장치(140)는 마이크로폰 및 스피커와 같은 제한된 유형의 사용자 인터페이스를 포함할 수 있다. 일부 경우에, 컴퓨팅 장치(140)의 주요 사용자 인터페이스는 마이크로폰 및 스피커, 또는 음성 인터페이스일 수 있다. 예를 들어, 클라이언트 컴퓨팅 장치(140)의 주요 사용자 인터페이스는 음성 기반 또는 오디오 기반 사용자 인터페이스를 포함할 수 있다. 클라이언트 컴퓨팅 장치(140)는 디스플레이를 포함할 수 있고 주요 사용자 인터페이스가 음성 기반 또는 오디오 기반이 되도록 할 수 있다. 클라이언트 컴퓨팅 장치(140)의 주요 사용자 인터페이스는 대화형일 수 있다. 대화형 사용자 인터페이스는 데이터 처리 시스템(102)의 자연어 프로세서("NLP") 컴포넌트(106)에 의해 적어도 부분적으로 구동되거나 촉진되는 사용자 인터페이스를 지칭할 수 있다.
데이터 처리 시스템(102)은 적어도 하나의 계산 리소스(자원) 또는 서버를 갖는 콘텐츠 배치 시스템을 포함할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 인터페이스(104)를 포함하거나, 인터페이스하거나, 그렇지 않으면 이와 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 NLP 컴포넌트(106)를 포함하거나, 인터페이스하거나, 그렇지 않으면 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 직접 액션 애플리케이션 프로그래밍 인터페이스("API")(108)를 포함하거나, 인터페이스하거나, 그렇지 않으면 통신할 수 있다. 인터페이스(104), NLP 컴포넌트(106) 및 직접 액션 API(108)는 대화형 API 또는 디지털 어시스턴트 기능을 제공할 수 있다. 대화형 API 또는 디지털 어시스턴트는 데이터를 제공하거나 데이터를 수신하거나 다른 기능을 수행하기 위해 하나 이상의 음성 기반 인터페이스 또는 다양한 디지털 어시스턴트 장치 또는 서피스(surfaces)와 통신하거나 인터페이스할 수 있다.
데이터 처리 시스템(102)은 적어도 하나의 애플리케이션 전달 컴포넌트(110)를 포함하거나, 인터페이스하거나, 그렇지 않으면 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 요청 관리 컴포넌트(112)를 포함하거나, 인터페이스하거나, 그렇지 않으면 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 링크 관리 컴포넌트(114)를 포함하거나, 인터페이스하거나, 그렇지 않으면 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 요청 검증 컴포넌트(116)를 포함하거나, 인터페이스하거나, 그렇지 않으면 통신할 수 있다.
인터페이스(104), NLP 컴포넌트(106), 직접 액션 API(108), 애플리케이션 전달 컴포넌트(110), 요청 관리 컴포넌트(112), 링크 관리 컴포넌트(114), 및 요청 검증 컴포넌트(116) 각각은 데이터 저장소(118) 또는 다른 데이터베이스와 통신하기 위한 적어도 하나의 처리 유닛 또는 프로그래밍 가능한 논리 어레이 엔진과 같은 다른 논리 장치, 또는 모듈을 포함할 수 있다. 인터페이스(104), NLP 컴포넌트(106), 직접 액션(direct action) API(108), 애플리케이션 전달 컴포넌트(110), 요청 관리 컴포넌트(112), 링크 관리 컴포넌트(114), 요청 검증 컴포넌트(116) 및 데이터 저장소(118)는 개별 컴포넌트, 단일 컴포넌트 또는 데이터 처리 시스템(102)의 일부일 수 있다. 데이터 처리 시스템(102)과 같은 시스템(100) 및 그 컴포넌트는 하나 이상의 프로세서, 논리 장치 또는 회로와 같은 하드웨어 요소를 포함할 수 있다.
데이터 처리 시스템(102)은 복수의 클라이언트 컴퓨팅 장치(140)(또는 컴퓨팅 장치 또는 디지털 어시스턴트 디바이스)와 연관된 익명의 컴퓨터 네트워크 활동 정보를 얻을 수 있다. 클라이언트 컴퓨팅 장치(140) 또는 모바일 컴퓨팅 장치의 사용자는 데이터 처리 시스템(102)이 클라이언트 컴퓨팅 장치(140) 또는 모바일 컴퓨팅 장치에 대응하는 네트워크 활동 정보를 획득하도록 확실히 승인할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 하나 이상의 유형의 네트워크 활동 정보를 획득하기 위한 동의를 컴퓨팅 장치(140)의 사용자에게 프롬프트할 수 있다. 클라이언트 컴퓨팅 장치(140)는 스마트폰, 태블릿, 스마트워치, 또는 웨어러블 디바이스와 같은 모바일 컴퓨팅 장치를 포함할 수 있다. 클라이언트 컴퓨팅 장치(140)의 사용자의 신원은 익명으로 유지될 수 있고 컴퓨팅 장치(140)는 고유 식별자(예: 데이터 처리 시스템 또는 컴퓨팅 장치의 사용자가 제공한 사용자 또는 컴퓨팅 장치에 대한 고유 식별자)와 연관될 수 있다. 데이터 처리 시스템은 각 관찰(observation)을 해당 고유 식별자와 연관시킬 수 있다.
데이터 처리 시스템(102)은 제3자 디바이스(162)와 인터페이스할 수 있다. 제3자 디바이스(162)는 콘텐츠 제공자의 디바이스를 포함하거나 참조할 수 있다. 콘텐츠 제공자는 전자 콘텐츠 캠페인을 설정할 수 있다. 전자 컨텐츠 캠페인은 데이터 저장소(118)에 컨텐츠 데이터로서 저장될 수 있다. 전자 콘텐츠 캠페인은 공통 주제(common theme)에 해당하는 하나 이상의 콘텐츠 그룹을 참조할 수 있다. 콘텐츠 캠페인에는 콘텐츠 그룹, 디지털 컴포넌트 데이터 개체 및 콘텐츠 선택 기준을 포함하는 계층적 데이터 구조가 포함될 수 있다. 콘텐츠 캠페인을 생성하기 위해 콘텐츠 제공자는 콘텐츠 캠페인의 캠페인 레벨 파라미터 값을 지정할 수 있다. 캠페인 레벨 파라미터는 예를 들어 캠페인 이름, 디지털 컴포넌트 개체를 배치하기 위한 선호하는 콘텐츠 네트워크, 콘텐츠 캠페인에 사용할 리소스 값, 콘텐츠 캠페인의 시작 및 종료 날짜, 콘텐츠 기간, 디지털 컴포넌트 개체 배치에 대한 일정, 언어, 지리적 위치, 디지털 컴포넌트 개체를 제공하는 컴퓨팅 장치 유형을 포함할 수 있다. 경우에 따라 노출은 디지털 컴포넌트 개체를 소스(예를 들어, 데이터 처리 시스템(102) 또는 콘텐츠 제공자)에서 가져오고 셀 수 있는 시기를 나타낼 수 있다. 경우에 따라 사기 클릭 가능성으로 인해 로봇 활동이 필터링되어 노출로 제외될 수 있다. 따라서 어떤 경우에는 노출이 브라우저의 페이지 요청에 대한 웹 서버의 응답 측정을 참조할 수 있으며, 이는 로봇 활동 및 오류 코드로부터 필터링되고 컴퓨팅 장치(140)에 표시하기 위해 디지털 컴포넌트 객체를 렌더링할 기회에 가능한 한 가까운 지점에 기록된다. 경우에 따라 노출은 볼 수 있거나 들을 수 있는 노출을 나타낼 수 있다. 예를 들어, 디지털 컴포넌트 객체는 클라이언트 컴퓨팅 장치(140)의 디스플레이 디바이스(152) 상에서 적어도 부분적으로(예를 들어, 20%, 30%, 40%, 50%, 60%, 70%, 또는 그 이상) 볼 수 있고, 또는 컴퓨팅 장치(140)의 스피커(136)를 통해 들을 수 있다. 클릭 또는 선택은 가청 노출, 마우스 클릭, 터치 상호 작용, 제스처, 흔들기, 오디오 상호 작용 또는 키보드 클릭에 대한 음성 응답과 같은 디지털 컴포넌트 개체와의 사용자 상호 작용을 나타낼 수 있다. 전환은 사용자가 디지털 컴포넌트 이의 제기와 관련하여 원하는 조치를 취하는 것을 의미할 수 있다(예: 제품 또는 서비스 구매, 설문 조사 완료, 디지털 컴포넌트에 해당하는 실제 매장 방문 또는 전자 거래 완료).
콘텐츠 제공자는 콘텐츠 캠페인에 대해 하나 이상의 콘텐츠 그룹을 추가로 설정할 수 있다. 콘텐츠 그룹은 키워드, 단어, 용어, 구, 지리적 위치, 컴퓨팅 장치 유형, 시간, 관심, 토픽(주제) 또는 버티컬과 같은 하나 이상의 디지털 컴포넌트 개체 및 해당 콘텐츠 선택 기준을 포함한다. 동일한 콘텐츠 캠페인 아래의 콘텐츠 그룹은 동일한 캠페인 레벨 파라미터를 공유할 수 있지만, 키워드, 네거티브 키워드(예: 주요 콘텐츠에 제외 키워드가 있는 경우 디지털 컴포넌트의 배치를 차단함), 키워드 비드(bids) 또는 비드 또는 콘텐츠 캠페인과 연결된 파라미터와 같은 특정 콘텐츠 그룹 레벨 파라미터에 대한 맞춤형 사양(tailored specifications)을 가질 수 있다.
새 콘텐츠 그룹을 생성하기 위해, 콘텐츠 제공자는 콘텐츠 그룹의 콘텐츠 그룹 레벨 파라미터에 대한 값을 제공할 수 있다. 콘텐츠 그룹 레벨 파라미터에는 콘텐츠 그룹 이름 또는 콘텐츠 그룹 테마, 다양한 콘텐츠 배치 기회(예: 자동 배치 또는 선택 배치) 또는 결과(예: 클릭, 노출 또는 전환)에 대한 비드(bids)가 포함된다. 콘텐츠 그룹 이름 또는 콘텐츠 그룹 테마는 콘텐츠 제공자가 콘텐츠 그룹의 디지털 컴포넌트 객체가 표시를 위해 선택되는 토픽 또는 주제를 캡처하는 데 사용할 수 있는 하나 이상의 용어일 수 있다. 예를 들어, 자동차 대리점은 운송하는 차량의 각 브랜드에 대해 서로 다른 콘텐츠 그룹을 생성할 수 있고 운송하는 차량의 각 모델에 대해 다른 콘텐츠 그룹을 추가로 생성할 수 있다. 자동차 대리점에서 사용할 수 있는 콘텐츠 그룹 테마의 예로는 "Make A sports car", "Make B sports car", "Make C sedan", "Make C truck", "Make C hybrid" 또는 "Make D hybrid”를포함할 수 있다. 콘텐츠 캠페인 테마의 예는 "hybrid(하이브리드)"일 수 있으며 예를 들어 "Make C hybrid" 및 "Make D hybrid"에 대한 콘텐츠 그룹을 포함할 수 있다.
콘텐츠 제공자는 각 콘텐츠 그룹에 하나 이상의 키워드 및 디지털 컴포넌트 개체(객체)를 제공할 수 있다. 키워드에는 디지털 컴포넌트 개체와 관련되거나 디지털 컴포넌트 개체에 의해 식별되는 제품 또는 서비스와 연관된 용어가 포함될 수 있다. 키워드에는 하나 이상의 용어나 구문이 포함될 수 있다. 예를 들어 자동차 대리점은 콘텐츠 그룹 또는 콘텐츠 캠페인의 키워드로 "sports car(스포츠카)", "V-6 engine(V-6 엔진)", "four-wheel drive(4륜구동)", "fuel efficiency(연비)"를 포함할 수 있다. 경우에 따라 콘텐츠 제공자가 제외(네거티브) 키워드를 지정하여 특정 용어나 키워드에 대한 콘텐츠 배치를 회피, 방지, 차단 또는 비활성화할 수 있다. 콘텐츠 제공자는 디지털 컴포넌트 개체를 선택하는 데 사용되는 매치 유형(예: 정확한 매치, 구문 매치 또는 확장 매치(broad match))을 지정할 수 있다.
콘텐츠 제공자는 콘텐츠 제공자에 의해 제공되는 디지털 컴포넌트 객체를 선택하기 위해 데이터 처리 시스템(102)에 의해 사용될 하나 이상의 키워드를 제공할 수 있다. 콘텐츠 제공자는 비드(bid)할 하나 이상의 키워드를 식별하고 다양한 키워드에 대한 비드 금액을 추가로 제공할 수 있다. 콘텐츠 제공자는 디지털 컴포넌트 객체를 선택하기 위해 데이터 처리 시스템(102)에 의해 사용될 추가 콘텐츠 선택 기준을 제공할 수 있다. 복수의 콘텐츠 제공자가 동일하거나 상이한 키워드에 대해 비드할 수 있고, 데이터 처리 시스템(102)은 전자 메시지의 키워드의 표시를 수신하는 것에 응답하여 콘텐츠 선택 프로세스 또는 광고 경매를 실행할 수 있다.
콘텐츠 제공자는 데이터 처리 시스템(102)에 의한 선택을 위해 하나 이상의 디지털 컴포넌트 객체를 제공할 수 있다. 데이터 처리 시스템(102)은 리소스 할당, 콘텐츠 일정(스케줄), 최대 비드(bids), 키워드, 및 콘텐츠 그룹에 대해 지정된 다른 선택 기준과 일치(매치)하는 콘텐츠 배치 기회가 이용 가능해지면 디지털 컴포넌트 객체를 선택할 수 있다. 음성 디지털 컴포넌트, 오디오 디지털 컴포넌트, 텍스트 디지털 컴포넌트, 이미지 디지털 컴포넌트, 비디오 디지털 컴포넌트, 멀티미디어 디지털 컴포넌트 또는 디지털 컴포넌트 링크와 같은, 다양한 유형의 디지털 컴포넌트 객체가 콘텐츠 그룹에 포함될 수 있다. 디지털 컴포넌트 객체(또는 디지털 컴포넌트)는 예를 들어 콘텐츠 아이템, 온라인 문서, 오디오, 이미지, 비디오, 멀티미디어 콘텐츠 또는 후원 콘텐츠를 포함할 수 있다. 디지털 컴포넌트를 선택하면, 데이터 처리 시스템(102)은 컴퓨팅 장치(140) 또는 컴퓨팅 장치(140)의 디스플레이 장치(152) 상에서 렌더링하기 위해 디지털 컴포넌트 객체를 전송할 수 있다. 렌더링은 디스플레이 디바이스 상에 디지털 컴포넌트를 디스플레이하는 것, 또는 컴퓨팅 장치(140)의 스피커를 통해 디지털 컴포넌트를 재생하는 것을 포함할 수 있다. 데이터 처리 시스템(102)은 디지털 컴포넌트 객체를 렌더링하기 위해 컴퓨팅 장치(140)에 명령을 제공할 수 있다. 데이터 처리 시스템(102)은 컴퓨팅 장치(140) 또는 컴퓨팅 장치(140)의 오디오 드라이버(148)에게 오디오 신호 또는 음파를 생성하도록 명령할 수 있다.
데이터 저장소(118)는 하나 이상의 로컬 또는 분산 데이터베이스를 포함할 수 있고 데이터베이스 관리 시스템을 포함할 수 있다. 데이터 저장소(118)는 컴퓨터 데이터 저장소 또는 메모리를 포함할 수 있고 다른 데이터 중에서 애플리케이션 데이터(120), 검증 데이터(122), 또는 정책(124) 중 하나 이상을 저장할 수 있다. 데이터 저장소(118)는 애플리케이션 데이터(120), 검증 데이터(122), 또는 정책(124)을 하나 이상의 데이터 구조, 데이터베이스, 데이터 파일, 인덱스, 또는 다른 유형의 데이터 저장소에 저장할 수 있다.
애플리케이션 데이터(120)는 애플리케이션에 대한 정보를 포함할 수 있다. 애플리케이션 데이터(120)는 애플리케이션 개발자 디바이스(160)에 의해 제출된 애플리케이션에 대한 정보를 포함할 수 있다. 애플리케이션 데이터(120)는 애플리케이션과 연관된 메타데이터를 포함할 수 있다. 애플리케이션 데이터(120)는 예를 들어, 애플리케이션의 제목, 짧은 설명, 세부 설명, 버전 식별자, 엔티티, 동작, 의도, 호환성 정보, 크기, 애플리케이션의 유형, 애플리케이션의 카테고리 등을 포함할 수 있다. 애플리케이션 데이터(120)는 영숫자 식별자와 같은 애플리케이션의 고유 식별자를 포함할 수 있다. 애플리케이션 데이터(120)는 애플리케이션을 제공하거나 제출한 애플리케이션 개발자에 대한 정보를 포함할 수 있다.
애플리케이션 데이터(120)는 또한 애플리케이션 개발자 디바이스(160)의 사용자와 연관된 엔티티일 수 있는 애플리케이션 개발자의 선언된 엔티티에 관한 정보를 포함할 수 있다. 선언된 엔티티와 연관된 정보는 단어, 구, 이름 또는 선언된 엔티티를 식별하는 기타 유형의 정보일 수 있다. 선언된 엔티티는 애플리케이션 개발자 디바이스(160)의 사용자가 제휴를 주장하는 엔티티일 수 있다. 선언된 엔터티는 비즈니스, 브랜드 또는 웹 기반 서비스일 수 있다. 선언된 엔티티와 연관된 정보는 본 개시에서 식별자로 언급될 수 있다. 애플리케이션에 대한 애플리케이션 데이터(120)는 애플리케이션과 식별자 사이의 연관(association)을 저장할 수 있다. 애플리케이션 데이터(120)는 또한 애플리케이션에 대한 하나 이상의 URL을 포함할 수 있다. 예를 들어 URL은 애플리케이션과 연결된 서비스를 제공하는 웹 사이트의 주소일 수 있다. 애플리케이션은 애플리케이션에 대한 URL에 대응하는 주소를 갖는 서버 디바이스(예를 들어, 서버(170))와 인터페이스하거나, 액세스하거나, 그로부터 정보를 검색할 수 있다. URL은 애플리케이션 개발자 디바이스(160)의 사용자와 연관된 웹사이트의 URL일 수 있다. 예를 들어, URL은 애플리케이션 개발자 디바이스(160)의 사용자를 고용하는 회사와 연관된 웹사이트의 URL일 수 있다. 따라서 애플리케이션의 식별자(예: 선언된 엔터티)와 애플리케이션의 URL 간에 연관이 있을 수 있다. 예를 들어, 식별자는 URL 텍스트의 적어도 일부와 매치(일치)하거나 해당하는 단어 또는 구를 포함할 수 있거나 URL은 식별자의 적어도 일부와 일치(매치)하거나 해당하는 단어 또는 구를 포함할 수 있다.
일부 구현에서, 애플리케이션 데이터(120)는 URL과 상이한 리소스 식별자를 포함할 수 있다. 예를 들어, 애플리케이션 데이터(120)는 URI(Uniform Resource Identifier)를 포함할 수 있다. URI는 특정 네트워크 리소스를 식별하는 문자열이거나 이를 포함할 수 있다. 네트워크 리소스는 네트워크(105)와 같은 컴퓨터 네트워크를 통해 액세스할 수 있는 모든 리소스일 수 있다. URI는 특정 프로토콜과 연관된 구문에 따라 형식화될 수 있다. 구문은 웹 주소와 연결된 구문일 수 있다. 즉, URI는 URL일 수 있거나 포함할 수 있다. URI는 다른 프로토콜에 따라 형식화될 수도 있다. 예를 들어 URI는 URN(Uniform Resource Name) 또는 리소스 식별자에 대한 다른 형식으로 지정할 수 있다. URI는 애플리케이션 개발자 디바이스(160)의 사용자와 연관된 네트워크 리소스의 URI일 수 있다. 예를 들어, URI는 애플리케이션 개발자 디바이스(160)의 사용자를 고용하는 회사와 연관된 네트워크 리소스의 URI일 수 있다. 따라서 애플리케이션의 식별자(예: 선언된 엔터티)와 애플리케이션의 URI 간에 연관이 있을 수 있다.
검증 데이터(122)는 애플리케이션(예를 들어, 검증 데이터(122)에 포함된 애플리케이션)의 검증 상태에 관한 데이터 또는 애플리케이션 생성 요청과 연관된 데이터를 포함할 수 있다. 이러한 요청은 애플리케이션 개발자 장치(160)로부터 수신될 수 있다. 애플리케이션 또는 요청의 검증 상태는 애플리케이션에 대해 애플리케이션 개발자 디바이스(160)에 의해 제공되는 선언된 엔티티가 애플리케이션 개발자 디바이스(160)에 의해 또한 제공되는 애플리케이션에 대한 URL과 일치하거나 대응하는 것으로 결정되는지 여부를 나타낼 수 있다. 애플리케이션 또는 요청의 검증 상태는 이진(바이너리) 값일 수 있으며, 이는 애플리케이션 또는 요청이 검증되었거나 애플리케이션 또는 요청이 검증되지 않았음을 나타낼 수 있다. 예를 들어, 데이터 처리 시스템(102)은 애플리케이션 개발자 디바이스(160)에 의해 제공되는 애플리케이션의 선언된 엔티티가 애플리케이션 개발자 디바이스(160)에 의해 제공되는 애플리케이션의 URL과 일치(매치)하지 않는다고 결정할 수 있다. 그 다음, 데이터 처리 시스템(102)은 애플리케이션 또는 요청이 검증되지 않았음을 나타내기 위해 검증 데이터(122)를 저장할 수 있다(예를 들어, 거부되거나 거부됨). 검증 데이터(122)는 또한 데이터 처리 시스템(102)이 애플리케이션의 검증 상태 또는 애플리케이션을 생성하기 위한 요청을 결정하기 위해 사용할 수 있는 정보를 포함할 수 있다. 예를 들어, 검증 데이터(122)는 애플리케이션 개발자 디바이스(160)에 의해 제공되는 URL을 가리키는 링크 세트를 포함할 수 있다. 링크가 대상(타겟)으로 URL을 포함하는 경우 링크는 URL을 가리키는 것으로 간주될 수 있다. 링크는 웹 페이지와 같은 웹 기반 리소스에 대한 HTTP 링크일 수 있다. 링크는 다른 방식으로 형식을 지정할 수도 있다. 예를 들어 링크는 네트워크 리소스를 가리키거나 참조하거나 식별하는 데이터 또는 데이터 표현일 수 있다. 링크는 마크업 언어에 따라 포맷될 수 있다. 예를 들어, 링크는 HTML(Hypertext Markup Language)을 사용하여 형식을 지정할 수 있다. XML(Extensible Markup Language)을 사용하여 링크의 형식을 지정할 수도 있다. 링크에는 컴퓨터 네트워크를 통해 액세스할 수 있는 데이터 또는 기타 전자 리소스를 참조하기 위한 참조 메커니즘이 포함될 수 있다. 링크는 웹 기반 문서의 특정 섹션과 같이 네트워크 리소스의 특정 부분에 바인딩된 앵커 링크일 수 있다. 링크는 링크 선택 시 파일이 다운로드되도록 하는 다운로드 링크일 수 있다. 링크는 링크 선택 시 이메일 프로그램이 시작되거나 실행되도록 하는 이메일 링크일 수 있다.
링크에는 문자열도 포함될 수 있다. 링크에 대한 문자열은 링크가 클라이언트 컴퓨팅 장치(140)와 같은 컴퓨팅 장치의 웹 브라우저에서 렌더링될 때 링크를 시각적으로 묘사하기 위해 표시되는 텍스트일 수 있다. 링크의 문자열은 URL에 해당하는 텍스트이거나 이를 포함할 수 있지만 반드시 그럴 필요는 없다. 예를 들어, 링크의 문자열에는 링크의 타겟 URL 텍스트와는 다른 텍스트 또는 추가 텍스트가 포함될 수도 있다.
다시 도 1을 참조하면, 각각의 정책(124)은 애플리케이션을 생성하기 위한 요청의 검증 상태를 결정하기 위해 데이터 처리 시스템(102)에 의해 사용될 수 있는 하나 이상의 규칙, 발견적 방법, 명령 또는 기타 정보일 수 있거나 이를 포함할 수 있으며, 이는 애플리케이션 개발자 디바이스(160)로부터 수신될 수 있다. 데이터 처리 시스템(102)은 애플리케이션 개발자 디바이스(160)에 의해 제공되는 URL을 가리키는 링크 세트를 식별하는 것에 기초하여 요청의 검증 상태를 결정할 수 있다. 데이터 처리 시스템(102)은 인덱스 또는 다른 데이터베이스 또는 웹 기반 링크의 컬렉션을 사용하여 이러한 링크를 식별할 수 있다. 링크 세트의 각 링크는 URL에 해당하는 타겟(대상)을 포함할 수 있다. 링크 세트에는 URL과 연관된 서브도메인에 해당하는 대상(타겟)이 있는 링크도 포함될 수 있다. 예를 들어 URL은 최상위 도메인이 될 수 있으며 관련 서브도메인에 대한 대상(타겟)을 포함하는 링크도 링크 세트에 포함될 수 있다. 링크 세트의 각 링크에는 링크 텍스트도 포함될 수 있다. 링크 텍스트는 문자열일 수 있다. 예를 들어, 링크에 대한 링크 텍스트는 링크가 웹 브라우저 내의 웹 페이지에 렌더링될 때 웹 브라우저에 표시되는 문자 세트일 수 있다.
데이터 처리 시스템(102)은 링크 텍스트가 애플리케이션의 식별자를 참조하는 링크의 서브세트를 결정하기 위해 링크 세트의 각 링크에 대한 링크 텍스트를 파싱(parse)할 수 있다. 정책(124)은 링크의 식별된 서브세트에 기초하여 애플리케이션 개발자 디바이스(160)로부터의 요청의 검증 상태를 결정하기 위한 규칙, 발견적 방법(heuristics), 또는 명령을 포함할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 요청이 검증되어야 하는지 여부를 결정하기 위해 정책(124) 중 하나 이상에 기초하여 임계치 또는 다른 기준에 대한 링크의 서브세트를 비교할 수 있다. 임계치는 링크의 서브세트에 포함된 링크의 수(예: 최소 수)일 수 있다. 임계치는 백분율(percentage)이 될 수 있다. 예를 들어, 데이터 처리 시스템(102)은 링크의 서브세트에 의해 표현되는 애플리케이션 개발자 디바이스(160)로부터 수신된 URL에 대응하는 타겟을 갖는 링크의 총 수의 백분율을 결정할 수 있고, 그 백분율은 정책(124) 중 하나 이상에 의해 지정된 미리 결정된 백분율과 비교할 수 있다. 요청 검증(확인) 여부를 결정하는 기준은 동적일 수 있다. 데이터 처리 시스템(102)은 임의의 수의 정책(124)을 저장할 수 있고, 요청 또는 애플리케이션에 대한 다양한 특성에 기초하여 요청의 검증 상태를 결정하기 위한 기준을 식별하기 위한 정책(124) 중 특정 정책을 선택할 수 있다. 예를 들어, 정책(124)에 의해 지정된 임계치는 애플리케이션의 유형, 애플리케이션과 연관된 위험, 애플리케이션 개발자 장치(160)에 의해 제공되는 URL의 인기도, 또는 애플리케이션 요청의 임의의 다른 특성에 기초할 수 있다.
데이터 처리 시스템(102)은 예를 들어 데이터 패킷을 사용하여 정보를 수신 및 전송하기 위한 인터페이스(104)(또는 인터페이스 컴포넌트)를 포함할 수 있다. 인터페이스(104)는 네트워크 프로토콜과 같은 하나 이상의 프로토콜을 사용하여 정보를 수신 및 전송할 수 있다. 인터페이스(104)는 하드웨어 인터페이스, 소프트웨어 인터페이스, 유선 인터페이스, 또는 무선 인터페이스를 포함할 수 있다. 인터페이스(104)는 데이터를 하나의 포맷에서 다른 포맷으로 변환하거나 포맷팅하는 것을 용이하게 할 수 있다. 예를 들어, 인터페이스(104)는 소프트웨어 컴포넌트와 같은 다양한 컴포넌트 사이에서 통신하기 위한 정의를 포함하는 애플리케이션 프로그래밍 인터페이스를 포함할 수 있다. 인터페이스(104)는 네트워크(105)를 통해 클라이언트 컴퓨팅 장치(140), 애플리케이션 개발자 디바이스(160), 또는 제3자 디바이스(162) 중 하나 이상과 통신할 수 있다.
데이터 처리 시스템(102)은 데이터 처리 시스템(102)의 인터페이스(104)에 입력 오디오 신호를 전달하고 출력 오디오 신호를 렌더링하기 위해 로컬 클라이언트 컴퓨팅 장치의 컴포넌트를 구동하는 앱과 같은, 클라이언트 컴퓨팅 장치(140)에 설치된 애플리케이션, 스크립트 또는 프로그램과 인터페이스할 수 있다. 데이터 처리 시스템(102)은 오디오 입력 신호를 포함하거나 식별하는 데이터 패킷 또는 하나 이상의 다른 신호를 수신할 수 있다.
데이터 처리 시스템(102)은 NLP 컴포넌트(106)를 포함할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 오디오 신호를 수신하거나 획득하고 오디오 신호를 파싱하기 위해 NLP 컴포넌트(106)를 실행하거나 동작시킬 수 있다. 예를 들어, NLP 컴포넌트(106)는 인간과 컴퓨터 사이의 상호작용을 제공할 수 있다. NLP 컴포넌트(106)는 자연어를 이해하고 데이터 처리 시스템(102)이 인간 또는 자연어 입력으로부터 의미를 도출하게 하는 기술을 구현할 수 있다. NLP 컴포넌트(106)는 통계적 기계 학습과 같은 기계 학습에 기초한 기술을 구현할 수 있다. NLP 컴포넌트(106)는 예를 들어, 입력 오디오 신호를 파싱하기 위해 결정 트리, 통계 모델, 또는 확률 모델을 이용할 수 있다. NLP 컴포넌트(106)는 명명된 개체 인식(예: 텍스트 스트림이 주어지면 텍스트에서 사람이나 장소와 같은 고유 이름에 매핑되는 항목과 사람, 위치 또는 조직과 같은 각 이름의 유형을 결정), 자연어 생성(예: 컴퓨터 데이터베이스 또는 의미론적 의도의 정보를 이해할 수 있는 인간 언어로 변환), 자연어 이해(예: 텍스트를 컴퓨터 모듈이 조작할 수 있는 1차 논리 구조와 같은 보다 형식적인 표현으로 변환), 기계 번역(예: 텍스트를 한 인간의 언어에서 다른 언어로 자동 번역), 형태학적 세분화(morphological segmentation)(예: 단어를 개별 형태소로 분리하고 형태소의 클래스 식별함, 이는 형태의 복잡성이나 고려되는 언어 단어의 구조에 따라 어려울 수 있음), 질문 답변(예: 구체적이거나 개방형일 수 있는 인간 언어 질문에 대한 답변 결정), 의미 처리(예: 단어를 식별하고 식별된 단어를 유사한 의미를 가진 다른 단어와 관련시키기 위해 그 의미를 인코딩한 후 발생할 수 있는 프로세싱)와 같은 기능을 수행할 수 있다.
NLP 컴포넌트(106)는 입력 신호를 (예를 들어, 데이터 저장소(118)에 있는) 저장된 대표적인 오디오 파형 세트와 비교하고 가장 가까운 매치를 선택함으로써 오디오 입력 신호를 인식된 텍스트로 변환할 수 있다. 오디오 파형 세트는 데이터 저장소(118) 또는 데이터 처리 시스템(102)에 액세스 가능한 다른 데이터베이스에 저장될 수 있다. 대표 파형은 대규모 사용자 세트에서 생성된 다음 사용자의 음성 샘플로 보강될 수 있다. 오디오 신호가 인식된 텍스트로 변환된 후, NLP 컴포넌트(106)는 데이터 처리 시스템(102)이 제공할 수 있는 액션(동작)과 함께, 예를 들어 사용자에 대한 훈련을 통해 또는 수동 사양(manual specification)을 통해 연관된 단어에 텍스트를 일치(매치)시킨다. NLP 컴포넌트(106)의 양태 또는 기능은 데이터 처리 시스템(102) 또는 클라이언트 컴퓨팅 장치(140)에 의해 수행될 수 있다. 예를 들어, 로컬 NLP 컴포넌트는 클라이언트 컴퓨팅 장치(140)에서 실행하여 입력 오디오 신호를 텍스트로 변환하고 데이터 패킷을 통해 텍스트를 추가 자연어 프로세싱을 위해 데이터 처리 시스템(102)으로 전송하는 양태를 수행할 수 있다.
오디오 입력 신호는 클라이언트 컴퓨팅 장치(140)의 센서(144) 또는 변환기(146)(예를 들어, 마이크로폰)에 의해 검출될 수 있다. 변환기(146), 오디오 드라이버(148), 또는 다른 컴포넌트를 통해 클라이언트 컴퓨팅 장치(140)는 오디오 입력 신호를 (예를 들어, 네트워크(105)를 통해) 데이터 처리 시스템(102)에 제공할 수 있으며, 여기서 오디오 입력 신호는 (예를 들어, 인터페이스(104)에 의해) 수신되어 NLP 컴포넌트(106)에 제공되거나 데이터 저장소(118)에 저장될 수 있다.
클라이언트 컴퓨팅 장치(140)는 오디오 드라이버(148), 변환기(146), 센서(144) 및 전처리기(150)를 포함할 수 있다. 센서(144)는 입력 오디오 신호(예를 들어, 음성 입력)를 수신하거나 검출할 수 있다. 전처리기(150)는 오디오 드라이버, 변환기 및 센서에 연결될 수 있다. 전처리기(150)는 입력 오디오 신호를 필터링하여 필터링된 입력 오디오 신호를 생성할 수 있다(예를 들어, 특정 주파수를 제거하거나 잡음을 억제함으로써). 전처리기(150)는 필터링된 입력 오디오 신호를 데이터 패킷으로 변환할 수 있다(예를 들어, 소프트웨어 또는 하드웨어 디지털-아날로그 변환기를 사용하여). 일부 경우에, 전처리기(150)는 필터링되지 않은 입력 오디오 신호를 데이터 패킷으로 변환하고 데이터 패킷을 데이터 처리 시스템(102)으로 전송할 수 있다. 전처리기(150)는 자연어 프로세서 컴포넌트, 인터페이스, 화자 인식 컴포넌트, 및 직접 액션 애플리케이션 프로그래밍 인터페이스를 실행하는 메모리 및 하나 이상의 프로세서를 포함하는 데이터 처리 시스템(102)에 데이터 패킷을 전송할 수 있다.
데이터 처리 시스템(102)은 인터페이스를 통해 전처리기 컴포넌트로부터 센서에 의해 검출된 필터링된(또는 필터링되지 않은) 입력 오디오 신호를 포함하는 데이터 패킷을 수신할 수 있다. 데이터 처리 시스템(102)은 입력 오디오 신호로부터 음향 서명(acoustic signature)을 식별할 수 있다. 데이터 처리 시스템(102)은 데이터 저장소에서의 참조(조회)(예를 들어, 데이터베이스에 질의)에 기초하여 음향 서명에 대응하는 전자 계정을 식별할 수 있다. 데이터 처리 시스템(102)은 전자 계정의 식별에 응답하여 세션 및 세션에서 사용하기 위한 계정을 설정할 수 있다. 계정에는 하나 이상의 정책이 있는 프로필이 포함될 수 있다. 데이터 처리 시스템(102)은 요청 및 요청에 대응하는 트리거 키워드를 식별하기 위해 입력 오디오 신호를 파싱할 수 있다.
데이터 처리 시스템(102)은 클라이언트 컴퓨팅 장치(140)의 전처리기(150)에 상태를 제공할 수 있다. 클라이언트 컴퓨팅 장치(140)는 상태의 표시를 수신할 수 있다. 오디오 드라이버는 프로파일 상태의 표시(indication)를 수신하고 표시를 기반으로 출력 신호를 생성할 수 있다. 오디오 드라이버는 표시를 사운드 신호 또는 음향 출력 신호와 같은 출력 신호로 변환할 수 있다. 오디오 드라이버는 오디오 드라이브에 의해 생성된 출력 신호에 기초하여 사운드를 생성하기 위해 변환기(146)(예를 들어, 스피커)를 구동할 수 있다.
일부 경우에, 클라이언트 컴퓨팅 장치(140)는 광원(142)을 포함할 수 있다. 광원은 하나 이상의 LED, 조명, 디스플레이, 또는 광학적 또는 시각적 출력을 제공하는 기타 컴포넌트 또는 장치를 포함할 수 있다. 전처리기(150)는 광원이 상태에 대응하는 시각적 표시를 제공하게 할 수 있다. 예를 들어, 시각적 표시는 켜지는 상태 표시등, 조명의 색상 변경, 하나 이상의 색상이 있는 조명 패턴 또는 텍스트 또는 이미지의 시각적 표시일 수 있다.
NLP 컴포넌트(106)는 입력 오디오 신호를 획득할 수 있다. 입력 오디오 신호로부터, NLP 컴포넌트(106)는 적어도 하나의 요청 또는 요청에 대응하는 적어도 하나의 트리거 키워드를 식별할 수 있다. 요청은 입력 오디오 신호의 의도 또는 주제(subject matter)를 나타낼 수 있다. 트리거 키워드는 수행될 가능성이 있는 액션 유형을 나타낼 수 있다. 트리거 키워드는 후속 오디오 입력을 텍스트로 변환하고 추가 처리를 위해 데이터 처리 시스템(102)에 텍스트를 전송하도록 클라이언트 컴퓨팅 장치(140)에 표시하는 웨이크업 신호 또는 핫워드일 수 있다. 예를 들어, NLP 컴포넌트(106)는 저녁 식사 및 영화에 참석하기 위해 저녁에 집을 떠나라는 적어도 하나의 요청을 식별하기 위해 입력 오디오 신호를 파싱할 수 있다. 트리거 키워드는 수행할 액션을 나타내는 하나 이상의 단어, 구, 어근 또는 부분 단어(partial word) 또는 파생어를 포함할 수 있다. 예를 들어, 입력 오디오 신호의 트리거 키워드 "go" 또는 "to go to"는 전송이 필요함을 나타낼 수 있다. 이 예에서 입력 오디오 신호(또는 식별된 요청)는 전송 의도를 직접 표현하지 않지만, 트리거 키워드는 전송이 요청에 의해 표시된 적어도 하나의 다른 액션에 대한 보조 액션임을 나타낸다.
NLP 컴포넌트(106)는 요청 및 트리거 키워드를 식별, 결정, 검색, 또는 그렇지 않으면 획득하기 위해 입력 오디오 신호를 파싱할 수 있다. 예를 들어, NLP 컴포넌트(106)는 트리거 키워드 또는 요청을 식별하기 위해 의미론적 처리 기술을 입력 오디오 신호에 적용할 수 있다. NLP 컴포넌트(106)는 제1 트리거 키워드 및 제2 트리거 키워드와 같은 하나 이상의 트리거 키워드를 포함하는 트리거 구문을 식별하기 위해 의미론적 처리 기술을 입력 오디오 신호에 적용할 수 있다. 예를 들어, 입력 오디오 신호에는 "I want to ride to the airport"라는 문장이 포함될 수 있다. NLP 컴포넌트(106)는 "want a ride(탑승을 원한다)" 및 "airport(공항)"이라는 요청 또는 트리거 문구를 식별하기 위해 문장을 포함하는 데이터 패킷에 의미론적 처리 기술 또는 다른 자연어 프로세싱 기술을 적용할 수 있다. NLP 컴포넌트(106)는 원하고(want) 탈 것(ride)과 같은 복수의 트리거 키워드를 더 식별할 수 있다. 예를 들어, NLP 컴포넌트(106)는 트리거 구문이 트리거 키워드 및 제2 트리거 키워드를 포함한다고 결정할 수 있다.
NLP 컴포넌트(106)는 트리거 키워드를 식별하기 위해 입력 오디오 신호를 필터링할 수 있다. 예를 들어, 입력 오디오 신호를 운반하는 데이터 패킷은 "It would be great if I could get someone that could help me go to the airport"를 포함할 수 있으며, 이 경우 NLP 컴포넌트(106)는 "it", "would", "be", "great", "if", "I", "could", "get", "someone", "that", "could" 또는 "help"와 같이 하나 이상의 용어를 필터링할 수 있다. 이러한 용어를 필터링함으로써, NLP 컴포넌트(106)는 "go to the airport(공항에 가다)"와 같은 트리거 키워드를 보다 정확하고 안정적으로 식별하고 이것이 택시 또는 승차 공유 서비스에 대한 요청인지 결정할 수 있다.
일부 경우에, NLP 컴포넌트(106)는 입력 오디오 신호를 운반하는 데이터 패킷이 하나 이상의 요청을 포함한다고 결정할 수 있다. 예를 들어, 입력 오디오 신호에는 ""I want to purchase an audiobook and monthly subscription to movies(오디오북을 구매하고 영화를 월간 구독하고 싶습니다.)"라는 문장이 포함될 수 있다. NLP 컴포넌트(106)는 이것이 오디오 북 및 스트리밍 멀티미디어 서비스에 대한 요청임을 결정할 수 있다. NLP 컴포넌트(106)는 이것이 단일 요청 또는 다중 요청임을 결정할 수 있다. NLP 컴포넌트(106)는 이것이 2개의 요청, 즉 오디오북을 제공하는 서비스 제공자에 대한 제1 요청 및 영화 스트리밍을 제공하는 서비스 제공자에 대한 제2 요청임을 결정할 수 있다. 일부 경우에, NLP 컴포넌트(106)는 복수의 결정된 요청을 단일 요청으로 결합하고 단일 요청을 제3자 디바이스(162)에 전송할 수 있다. 일부 경우에, NLP 컴포넌트(106)는 개별 요청을 다른 서비스 제공자 장치에 전송하거나 두 요청 모두를 동일한 제3자 디바이스(162)에 별도로 전송할 수 있다.
데이터 처리 시스템(102)은 트리거 키워드에 기초하여 요청에 응답하는 액션 데이터 구조를 생성하도록 설계되고 구성된 직접 액션 API(108)를 포함할 수 있다. 직접 액션 API(108)는 애플리케이션이 대응하는 액션을 수행하게 하는 액션 데이터 구조를 생성할 수 있다. 직접 액션 API(108)는 클라이언트 컴퓨팅 장치(140)가 대응하는 액션을 수행하거나 액션을 개시하게 하기 위해 클라이언트 컴퓨팅 장치(140)에 설치된 애플리케이션에 액션 데이터 구조를 전송할 수 있다. 직접 액션 API(108)에 의해 생성된 액션 데이터 구조는 클라이언트 컴퓨팅 장치(140)에 설치된 애플리케이션에 대한 딥 링크를 포함할 수 있다. 그러면 클라이언트 컴퓨팅 장치(140)에 설치된 애플리케이션은 액션을 수행하거나 애플리케이션 개발자 장치(160) 또는 제3자 디바이스(162)와 통신하여 액션을 수행할 수 있다.
데이터 처리 시스템(102)의 프로세서는 디지털 컴포넌트를 획득하고, 카 셰어링 서비스의 자동차나 오디오북과 같이 서비스 또는 제품을 주문하기 위해, 클라이언트 컴퓨팅 장치(140), 애플리케이션 개발자 장치(160), 또는 제3자 디바이스(162) 또는 기타 장치에 설치된 애플리케이션에 제공할 데이터 구조를 생성하는 스크립트를 실행하도록 직접 액션 API(108)를 호출할 수 있다. 직접 액션 API(108)는 데이터 저장소(118)로부터 데이터를 얻을 수 있을 뿐만 아니라, 최종 사용자 동의 하에 클라이언트 컴퓨팅 장치(140)로부터 수신된 데이터를 획득하여 제3자 디바이스(162)가 카 셰어 서비스에서 차량 예약 등의 동작을 수행할 수 있도록 위치, 시간, 사용자 계정, 물류 또는 기타 정보를 결정할 수 있다. 직접 액션 API(108)를 사용하여, 데이터 처리 시스템(102)은 또한 이 예에서 자동차 셰어(공유) 픽업 예약을 함으로써 변환을 완료하기 위해 제3자 디바이스(162)와 통신할 수 있다.
직접 액션 API(108)는 데이터 처리 시스템(102)에 의해 결정된 바와 같이 최종 사용자의 의도를 충족시키기 위해 지정된 동작(액션)을 실행할 수 있다. 데이터 저장소(118)의 입력 및 파라미터 또는 규칙에 지정된 액션에 따라 직접 액션 API(108)는 사용자 요청을 수행하는 데 필요한 파라미터를 식별하는 코드 또는 대화 스크립트를 실행할 수 있다. 직접 액션 API(108)는 최종 사용자의 의도를 만족시키거나 이행하기 위해 애플리케이션을 실행할 수 있다. 이러한 코드는 예를 들어 데이터 저장소(118)에서 홈 자동화 서비스 또는 제3자 서비스의 이름과 같은 추가 정보를 조회할 수 있고, 또는 요청된 택시의 의도된 목적지와 같은 최종 사용자 질문을 하기 위해 클라이언트 컴퓨팅 장치(140)에서 렌더링하기 위한 오디오 출력을 제공할 수 있다. 직접 액션 API(108)는 파라미터를 결정할 수 있고 정보를 액션(동작) 데이터 구조로 패키징할 수 있으며, 이는 그 다음 이행될 애플리케이션 전달 컴포넌트(110)와 같은 다른 컴포넌트로 전송될 수 있다.
직접 액션 API(108)는 NLP 컴포넌트(106) 또는 데이터 처리 시스템(102)의 다른 컴포넌트로부터 명령어 또는 명령을 수신하여 액션 데이터 구조를 생성하거나 구성할 수 있다. 직접 액션 API(108)는 데이터 저장소(118)에 저장된 템플릿을 선택하기 위해 액션 유형을 결정할 수 있다. 액션은 애플리케이션 전달 컴포넌트(110)에 의해 제공되고 애플리케이션 개발자 디바이스(160)에 의해 제출된 애플리케이션에 의해 이행될 수 있다. 애플리케이션은 액션을 수행하거나 수행을 용이하게 할 수 있다. 액션 유형의 예에는 보기 액션, 듣기 액션, 읽기 액션, 탐색 액션 또는 날씨 액션이 포함될 수 있다. 액션 유형에는 서비스, 제품, 예약, 티켓, 멀티미디어 콘텐츠, 오디오북, 구독 관리, 구독 조정, 디지털 통화 이전, 구매 또는 음악이 포함되거나 제공될 수 있다. 액션 유형에는 서비스 또는 제품 유형이 포함될 수 있다. 예를 들어, 서비스 유형에는 자동차 공유 서비스, 음식 배달 서비스, 세탁 서비스, 가정부 서비스, 수리 서비스, 가사 서비스, 장치 자동화 서비스 또는 미디어 스트리밍 서비스가 포함될 수 있다. 제품 유형에는 예를 들어 옷, 신발, 장난감, 전자 제품, 컴퓨터, 책 또는 보석이 포함될 수 있다. 예약 유형에는 예를 들어 저녁 식사 예약 또는 미용실 약속이 포함될 수 있다. 티켓 유형에는 예를 들어 영화 티켓, 스포츠 경기장 티켓 또는 비행기 티켓이 포함될 수 있다. 경우에 따라 서비스, 제품, 예약 또는 티켓의 유형은 가격, 위치, 배송 유형, 가용성 또는 기타 속성에 따라 분류될 수 있다.
NLP 컴포넌트(106)는 요청 및 요청에 대응하는 트리거 키워드를 식별하기 위해 입력 오디오 신호를 파싱할 수 있고, 요청 및 트리거 키워드를 직접 액션 API(108)에 제공하여 직접 액션 API가 트리거 키워드에 기초하여 요청에 응답하는 제1 액션 데이터 구조를 생성하게 하도록 한다. 직접 액션 API(108)는 요청 유형을 식별하면 템플릿 저장소(예: 데이터 저장소(118))에서 해당 템플릿에 액세스할 수 있다. 템플릿은 클라이언트 컴퓨팅 장치(140)에 의해 검출된 입력 오디오를 통해 요청되는 동작을 추가하기 위해 직접 액션 API(108)에 의해 채워질 수 있는 구조화된 데이터 세트의 필드를 포함할 수 있다(예: 픽업 위치에서 최종 사용자를 픽업하고 최종 사용자를 목적지 위치로 운송하기 위해 택시를 보내는 동작). 직접 액션 API(108) 또는 클라이언트 컴퓨팅 장치(140)는 입력 오디오의 요청을 이행하기 위해 애플리케이션을 시작하거나 트리거할 수 있다. 예를 들어, 자동차 공유 서비스 애플리케이션은 장치 식별자, 픽업 위치, 목적지 위치, 승객 수 또는 서비스 유형과 같은 필드 중 하나 이상을 포함할 수 있다. 직접 액션 API(108)는 필드를 값으로 채울 수 있다. 필드를 값으로 채우기 위해 직접 액션 API(108)는 컴퓨팅 장치(140)의 하나 이상의 센서(144) 또는 장치(140)의 사용자 인터페이스로부터 정보를 핑(ping), 폴링(polling)하거나 그렇지 않으면 획득할 수 있다. 예를 들어, 직접 액션 API(108)는 GPS 센서와 같은 위치 센서를 사용하여 소스 위치를 감지할 수 있다. 직접 액션 API(108)는 컴퓨팅 장치(140)의 최종 사용자에게 설문조사, 프롬프트 또는 쿼리를 제출함으로써 추가 정보를 얻을 수 있다. 직접 액션 API는 데이터 처리 시스템(102)의 인터페이스(104) 및 컴퓨팅 장치(140)의 사용자 인터페이스(예: 오디오 인터페이스, 음성 기반 사용자 인터페이스, 디스플레이 또는 터치 스크린)를 통해 설문조사, 프롬프트 또는 질의를 제출할 수 있다. 따라서, 직접 액션 API(108)는 트리거 키워드 또는 요청에 기초하여 액션 데이터 구조에 대한 템플릿을 선택하고, 템플릿의 하나 이상의 필드를 하나 이상의 센서(144)에 의해 검출되거나 사용자 인터페이스를 통해 획득된 정보로 채울 수 있으며, 제3자 디바이스(162)에 의한 동작의 수행을 용이하게 하기 위해 액션 데이터 구조를 생성, 발생 또는 구성한다.
데이터 처리 시스템(102)은 애플리케이션 전달 컴포넌트(110)를 포함하거나, 그와 인터페이스하거나, 그렇지 않으면 액세스할 수 있다. 애플리케이션 전달 컴포넌트(110)는 또한 데이터 처리 시스템(102)과 분리될 수 있다. 예를 들어, 애플리케이션 전달 컴포넌트(110)는 데이터 처리 시스템(102)과 별개의 시스템 또는 서버일 수 있다. 데이터 처리 시스템(102)은 네트워크(105)를 통해 애플리케이션 전달 컴포넌트(110)와 통신할 수 있다.
애플리케이션 전달 컴포넌트(110)는 애플리케이션 개발자 디바이스(160)에 의해 제공되는 입력에 부분적으로 기초하여 생성되거나 제출된 애플리케이션을 수신할 수 있다. 애플리케이션 전달 컴포넌트(110)는 애플리케이션의 하나 이상의 버전을 유지할 수 있다. 애플리케이션 전달 컴포넌트(110)는 애플리케이션을 클라이언트 컴퓨팅 장치(140)에 전송할 수 있다. 애플리케이션 전달 컴포넌트(110)는 클라이언트 컴퓨팅 장치(140)에 애플리케이션을 다운로드할 수 있다. 애플리케이션 전달 컴포넌트(110)는 온라인 애플리케이션 스토어 또는 마켓플레이스를 유지할 수 있다. 애플리케이션 전달 컴포넌트(110)는 애플리케이션 개발자 디바이스(160) 또는 클라이언트 컴퓨팅 장치(140)에 대한 계정을 관리하거나 유지할 수 있다. 애플리케이션 전달 컴포넌트(110)는 계정에 대한 프로파일을 유지할 수 있다. 계정 또는 프로필을 고유 식별자와 연결할 수 있다. 계정에는 애플리케이션을 구매하거나 구독하는 데 사용할 수 있는 금융 계정 또는 토큰 계정이 포함될 수 있다. 애플리케이션 전달 컴포넌트(110)는 전자 금융 계정과 같은 전자 계정 정보를 제공함으로써 애플리케이션에 대한 지불을 클라이언트 컴퓨팅 장치(140)의 사용자에게 프롬프트할 수 있다.
데이터 처리 시스템(102)은 요청 관리 컴포넌트(112)를 포함하거나, 이들과 인터페이스하거나 그렇지 않으면 액세스할 수 있다. 요청 관리 컴포넌트(112)는 애플리케이션 개발자 디바이스(160)로부터의 요청을 수신, 처리 및 관리할 수 있다. 요청은 애플리케이션을 생성하기 위한 데이터 처리 시스템(102)에 대한 요청이거나 이를 포함할 수 있다. 요청은 또한 데이터 처리 시스템(102)이 트리거 단어 또는 구문을 애플리케이션과 연관시키는 요청일 수 있거나 이를 포함할 수 있다. 요청 관리 컴포넌트(112)는 애플리케이션 개발자 디바이스(160)와 통신하여 요청을 제공하도록 애플리케이션 개발자 디바이스(160)를 간청하거나 그렇지 않으면 프롬프트할 수 있다. 예를 들어, 요청 관리 컴포넌트(112)는 애플리케이션 개발자 디바이스(160) 상에 디스플레이하기 위한 인터페이스(예를 들어, 그래픽 사용자 인터페이스)를 제공할 수 있다. 애플리케이션 개발자 디바이스(160)의 사용자는 요청을 제공하기 위해 인터페이스와 상호작용할 수 있다. 인터페이스는 애플리케이션 개발자 디바이스(160)의 사용자가 요청을 제공할 때 선택할 수 있는 하나 이상의 선택 가능한 옵션을 제공할 수 있다. 예를 들어, 애플리케이션 개발자 디바이스(160)의 사용자는 요청과 함께 식별자를 표시하도록 활성화될 수 있다. 식별자는 애플리케이션 개발자 디바이스(160)의 사용자가 애플리케이션과 연관시키기를 원하는 문자열(예를 들어, 일련의 텍스트 기반 문자)일 수 있다. 식별자는 회사 또는 웹 기반 서비스와 같은 애플리케이션 개발자 디바이스(160)와 연관된 엔티티에 대응할 수 있다. 요청과 함께 식별자를 제공함으로써, 애플리케이션 개발자 디바이스(160)의 사용자는 식별자가 애플리케이션과 연관되어 있음을 데이터 처리 시스템(102)에 선언할 수 있다. 따라서, 식별자는 또한 본 개시에서 선언된 엔티티로 지칭될 수 있다.
애플리케이션 개발자 디바이스(160)의 사용자는 또한 요청과 함께 URL을 제공하도록 인에이블될 수 있다. 요청 관리 컴포넌트(112)는 URL을 수신할 수 있다. URL은 애플리케이션과 연관된 서비스를 제공하는 웹사이트의 주소에 해당할 수 있다. URL은 애플리케이션 개발자 디바이스(160)로부터 수신된 요청에 포함된 식별자에 대응하는 선언된 엔티티와 같은 애플리케이션 개발자 디바이스(160)와 연관된 엔티티의 URL일 수 있다. URL은 애플리케이션 개발자 디바이스(160)의 사용자를 고용하는 회사와 연관된 웹사이트의 URL일 수 있다. 요청 관리 컴포넌트(112)는 또한 요청을 처리, 파싱 또는 그렇지 않으면 정보를 추출할 수 있다. 예를 들어, 요청 관리 컴포넌트(112)는 요청에 포함된 식별자 및 URL을 추출하기 위한 요청을 처리할 수 있다. 애플리케이션 개발자 디바이스(160)의 사용자는 또한 요청과 함께 상이한 리소스 식별자를 제공하도록 인에이블될 수 있다. 예를 들어, 애플리케이션 개발자 디바이스(160)의 사용자는 대신 URI를 제공할 수 있다. URI는 특정 네트워크 리소스를 식별하는 문자열일 수 있다. 네트워크 리소스는 네트워크(105)와 같은 컴퓨터 네트워크를 통해 액세스할 수 있는 모든 리소스일 수 있다.
데이터 처리 시스템(102)은 링크 관리 컴포넌트(114)를 포함하거나, 그와 인터페이스하거나, 그렇지 않으면 액세스할 수 있다. 링크 관리 컴포넌트(114)는 요청에 기초하여 링크 세트를 식별할 수 있다. 예를 들어, 링크 관리 컴포넌트(114)는 애플리케이션 개발자 디바이스(160)로부터 요청 관리 컴포넌트(112)에 의해 수신된 요청에 포함된 URL을 각각 참조하는 링크 세트를 식별할 수 있다. 링크 관리 컴포넌트(114)는 각각의 링크가 요청의 URL에 대응하는 타겟을 포함한다는 결정에 기초하여 링크 세트를 식별할 수 있다. 링크 관리 컴포넌트(114)는 또한 하나 이상의 대체 URL을 결정할 수 있다. 대체 URL은 요청의 일부로 수신된 URL과 연관된 URL일 수 있다. 예를 들어, 관련 URL은 관련 웹사이트에 대한 URL 또는 요청의 일부로 수신된 URL이 나타내는 최상위 도메인의 서브도메인에 해당하는 URL일 수 있다. 링크 관리 컴포넌트(114)는 하나 이상의 대체 URL을 참조하는 링크를 포함하도록 링크 세트를 식별할 수 있다.
링크 관리 컴포넌트(114)는 원격 컴퓨팅 장치에 저장된 정보를 사용하여 링크 세트를 식별할 수 있다. 예를 들어, 서버(170)와 같은 원격 컴퓨팅 장치는 웹 페이지의 인덱스를 유지할 수 있다. 링크 관리 컴포넌트(114)는 URL(또는 관련 URL)을 타겟으로 하는 링크 세트를 요청하기 위해 서버(170)에 요청을 전송할 수 있다. 이러한 인덱스는 또한 데이터 처리 시스템(102)에서 로컬로 유지될 수 있다. 예를 들어, 데이터 저장소(118) 또는 데이터 처리 시스템(102)의 다른 메모리 요소는 웹 페이지의 인덱스에 대응하는 정보를 저장할 수 있다. 링크 관리 컴포넌트(114)가 원격 컴퓨팅 장치로부터 링크 세트를 요청하는 경우에, 링크 관리 컴포넌트(114)는 하나 이상의 원격 프로시저 호출(RPC: remote procedure call)을 사용하여 요청을 전송할 수 있다. 예를 들어, 링크 관리 컴포넌트(114)는 원격 컴퓨팅 장치에 제공될 수 있는 RPC로서 애플리케이션 개발자 디바이스(160)에 의해 제공되는 URL에 대응하는 타겟을 갖는 링크 세트에 대한 요청을 구성할 수 있다. 원격 컴퓨팅 장치는 링크 세트를 식별할 수 있고 링크 세트를 링크 관리 컴포넌트(114)에 반환함으로써 RPC에 응답할 수 있다. 원격 컴퓨팅 장치는 서버(170)이거나 이를 포함할 수 있다. 원격 컴퓨팅 장치는 또한 프록시 장치이거나 이를 포함할 수 있다. 서버(170)는 이러한 프록시 장치를 구현할 수 있거나, 도 1에 도시된 도면에서 프록시 장치로 대체될 수 있다. 따라서, 본 개시에서 서버(170)는 또한 프록시(170)로 지칭될 수 있다.
애플리케이션 개발자 장치(디바이스)(160)에 의해 제공되는 URL에 대응하는 타겟을 갖는 링크 세트를 식별한 후, 링크 관리 컴포넌트(114)는 또한 애플리케이션 개발자 디바이스(160)에 의해 제공되는 식별자(예를 들어, 선언된 엔티티)를 포함하는 각각의 문자열을 갖는 링크의 서브세트를 식별할 수 있다. 예를 들어, 링크 관리 컴포넌트(114)에 의해 식별된 링크 세트의 각 링크는 링크가 참조하는 웹 주소일 수 있는 타겟과 관련된 모든 텍스트 정보가 될 수 있는 문자열 또는 링크 텍스트를 포함할 수 있다. 문자열은 링크가 클라이언트 컴퓨팅 장치(140)와 같은 컴퓨팅 장치에서 실행되는 웹 브라우저에서 렌더링될 때 문자열이 링크의 시각적 표현으로 표시되도록 하는 HTTP와 같은 마크업 언어에 따라 형식화된 텍스트일 수 있다. 따라서 사용자가 문자열을 클릭하거나 다른 방식으로 선택하면 웹 브라우저는 링크 타겟에 해당하는 웹사이트 또는 기타 리소스에 액세스할 수 있다. 링크에 대한 문자열은 또한 본 개시에서 링크 텍스트로 지칭될 수 있다.
링크 관리 컴포넌트(114)는 링크 텍스트가 요청의 일부로서 애플리케이션 개발자 디바이스(160)에 의해 제공되는 식별자를 포함하거나, 관련되거나, 참조하거나, 그렇지 않으면 이와 연관된 세트의 링크로서 링크의 서브세트를 식별할 수 있다. 링크 관리 컴포넌트(114)는 각각의 문자열을 파싱할 수 있다. 문자열을 파싱하는 것은 문자열에서 정보를 추출하기 위해 문자열을 처리하거나 분석하는 것을 포함할 수 있다. 예를 들어, 링크 관리 컴포넌트(114)는 링크의 문자열을 파싱하여 문자열의 개별 단어 각각을 식별할 수 있다. 링크 관리 컴포넌트(114)는 또한 문자열을 파싱하여 문자열의 각각의 개별 문자를 결정할 수 있다. 링크 관리 컴포넌트(114)는 언어 처리 기술을 적용하여 문자열을 파싱할 수 있다. 예를 들어, 링크 관리 컴포넌트(114)는 자연어 프로세싱 기술(예를 들어, 자연어 프로세서 컴포넌트(106)에 의해 제공됨)을 문자열에 적용하여 문자열의 토픽, 주제 또는 감정(sentiment)과 같은 정보를 결정할 수 있다.
주어진 링크에 대한 파싱된 문자열에 기초하여, 링크 관리 컴포넌트(114)는 애플리케이션 개발자 디바이스(160)에 의해 제공된 식별자가 문자열에 포함되거나 참조되는지 여부를 결정할 수 있다. 예를 들어, 링크 관리 컴포넌트(114)는 매치(일치)를 결정하기 위해 링크에 대한 문자열의 각각의 개별 단어와 식별자를 비교할 수 있다. 매치는 완전한 매치(예: 문자열의 적어도 하나의 단어가 식별자와 정확히 매치(일치)함) 또는 부분 매치(일치)일 수 있다. 링크에 대한 매치가 결정될 때 링크는 링크 서브세트의 일부로 포함될 수 있다. 링크 관리 컴포넌트(114)는 또한 링크에 대한 문자열이 식별자와 완전히 매치하지 않는 경우에도 링크의 서브세트의 일부로서 링크를 포함할 수 있다. 예를 들어, 링크 관리 컴포넌트(114)는 하나 이상의 대체 식별자를 결정할 수 있다. 대체 식별자는 요청의 일부로서 애플리케이션 개발자 디바이스(160)로부터 수신된 식별자와 다른 식별자일 수 있다. 예를 들어, 대체 식별자는 여전히 식별자와 동일한 엔터티를 참조할 수 있지만 다른 단어를 포함할 수 있다. 대체 식별자에는 엔티티에 대한 대체 철자, 대체 이름, 약어 등이 포함될 수 있다. 링크 관리 컴포넌트(114)는 링크에 대한 문자열이 원래 식별자와 매치하지 않는 경우에도 대체 식별자와 링크에 대한 문자열 사이의 매치를 결정할 수 있다. 식별자 및 임의의 대체 식별자를 링크 세트의 각 링크에 대한 문자열과 비교함으로써, 링크 관리 컴포넌트(114)는 매치 링크의 서브세트를 결정할 수 있다.
데이터 처리 시스템(102)은 요청 검증 컴포넌트(116)를 포함하거나, 이들과 인터페이스하거나, 그렇지 않으면 액세스할 수 있다. 요청 검증 컴포넌트(116)는 애플리케이션 개발자 디바이스(160)로부터 수신된 요청에 대한 검증 상태를 결정할 수 있다. 검증 상태는 바이너리 상태일 수 있다. 예를 들어 요청을 검증(확인)하거나 검증하지 않을 수 있다. 요청 검증 컴포넌트(116)는 링크 관리 컴포넌트(114)에 의해 식별된 링크의 서브세트에 부분적으로 기초하여 요청이 검증되는지 여부를 결정할 수 있다. 예를 들어, 링크 관리 컴포넌트(114)는 링크의 서브세트를 하나 이상의 임계치와 비교할 수 있다. 요청 검증 컴포넌트(116)는 데이터 저장소(118)에 저장된 정책(124) 중 하나 이상에 기초하여 비교를 위한 임계치를 선택할 수 있다. 임계치는 링크 관리 컴포넌트(114)에 의해 식별된 매치 링크의 서브세트를 포함하는 복수의 링크의 백분율과 같은 백분율일 수 있다. 다르게 표현하자면, 임계치는 요청과 함께 애플리케이션 개발자 디바이스(160)로부터 수신된 식별자(또는 대체 식별자)와 매치하는 문자열을 또한 포함하는 요청과 함께 애플리케이션 개발자 디바이스(160)로부터 수신된 URL을 포함하는 링크의 최소 요구 비율일 수 있다. 예를 들어, 임계치 백분율은 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% 또는 90%일 수 있다. 임계치는 백분율이 아니라 숫자일 수도 있다.
요청 검증 컴포넌트(116)는 또한 임계치를 동적으로 선택할 수 있다. 예를 들어, 임계치는 다른 기준에 따라 선택할 수 있다. 기준에는 애플리케이션 유형이 포함될 수 있다. 예를 들어 특정 유형의 애플리케이션은 다른 유형보다 사기 위험(risk of fraud)이 더 높을 수 있다. 사기 위험이 더 높은 애플리케이션에는 금융 관련 애플리케이션(예: 은행 애플리케이션) 또는 사용자로부터 개인 정보 또는 민감한 정보를 받거나 액세스할 수 있는 애플리케이션이 포함될 수 있다. 더 높은 위험을 제시하는 것으로 결정된 애플리케이션에 대해, 요청 검증 컴포넌트(116)는 요청의 검증을 위해 더 높은 임계치를 선택할 수 있다. 요청 검증 컴포넌트(116)는 또한 요청의 일부로서 애플리케이션 개발자 디바이스(160)로부터 수신된 URL의 인기도에 기초하여 비교를 위한 임계치를 선택할 수 있다. 예를 들어, URL을 타겟으로 포함하는 총 링크 수를 기반으로 인기도를 결정할 수 있다. 따라서, 요청 검증 컴포넌트(116)는 덜 인기 있는 URL을 지정하는 요청에 대한 것보다 더 인기 있는 URL을 지정하는 요청에 대해 상이한 임계치를 선택할 수 있다. 예를 들어, 요청 검증 컴포넌트(116)는 더 인기 있는 URL과 연관된 요청에 대해 더 높은 임계치를 선택할 수 있다.
요청 검증 컴포넌트(116)는 식별자 또는 대체 식별자를 임계치 값과 매치시키는 링크 텍스트(예를 들어, 문자열)를 갖는 링크의 서브세트를 비교하여 매치 레벨을 결정할 수 있다. 요청 검증 컴포넌트(116)는 링크의 서브세트가 임계치(예를 들어, 링크의 서브세트에 포함된 링크의 수가 임계치 이상임)을 충족하거나 초과한다는 결정에 응답하여 요청이 검증되었다고 결정할 수 있다. 요청 검증 컴포넌트(116)는 또한 링크의 서브세트가 임계치를 충족하거나 초과하지 않는다는(예: 링크의 서브세트에 포함된 링크의 수가 임계치 값보다 작은 경우) 결정에 응답하여 요청이 검증되지 않았다고 결정할 수 있다. 검증되지 않은 요청은 거부되거나 거부된 요청이라고도 한다. 요청 검증 컴포넌트(116)는 예를 들어 검증 데이터(122)로서 데이터 저장소(118)에 요청의 검증 상태를 저장할 수 있다.
도 2는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템(200)의 동작의 예시이다. 시스템(200)은 도 4에 도시된 시스템(400), 도 1에 도시된 시스템(100)의 하나 이상의 컴포넌트를 포함할 수 있다. 시스템(200)은 데이터 처리 시스템(102)을 포함할 수 있다. 데이터 처리 시스템(102)은 애플리케이션 개발자 디바이스(160)와 통신하거나, 인터페이스하거나, 그렇지 않으면 상호작용할 수 있다.
동작(205)에서, 애플리케이션 개발자 디바이스(160)는 요청을 생성할 수 있다. 요청은 음성 기반 소프트웨어 애플리케이션을 구축, 생성 또는 제공하기 위한 데이터 처리 시스템(102)에 대한 요청일 수 있다. 요청에는 애플리케이션과 연관된 정보가 포함될 수 있다. 예를 들어, 요청에는 해당 URL(Uniform Resource Locator)뿐만 아니라 애플리케이션과 연관된 선언된 엔터티에 대한 식별자가 포함될 수 있다. URL은 음성 기반 소프트웨어 애플리케이션에서 제공하는 서비스와 연관될 수 있다. 예를 들어, URL은 음성 기반 소프트웨어 애플리케이션이 클라이언트 컴퓨팅 장치(140)의 사용자와 같은 최종 사용자에 의해 후속적으로 실행될 때 음성 기반 소프트웨어 애플리케이션에 의해 액세스될 수 있다. URL은 또한 음성 기반 소프트웨어 애플리케이션이 최종 사용자에 의해 후속적으로 실행될 때 음성 기반 소프트웨어 애플리케이션에 의해 액세스되는 하나 이상의 다른 웹사이트(예: 서브도메인)의 최상위 도메인에 대응할 수 있다. 식별자는 애플리케이션 개발자 디바이스(160)의 사용자가 애플리케이션과 연관시키고자 하는 트리거 키워드에 대응할 수 있다. 애플리케이션 개발자 디바이스(160)가 요청에 제공된 식별자에 의해 표현된 선언된 엔티티와 실제로 연관되지 않고 대신에 선언된 엔티티를 사기적으로 가장(fraudulently impersonate)하려고 시도하는 위험이 있을 수 있다. 예를 들어, 애플리케이션을 사기로 선언된 엔터티와 연결하면 사용자가 애플리케이션을 실행할 때 다른 엔터티와 상호 작용하고 있다고 믿도록 속일 수 있다. 따라서, 데이터 처리 시스템(102)이 그러한 사기성 요청을 검출하고 방지하는 것이 유용할 수 있다.
데이터 처리 시스템(102)은 애플리케이션 개발자 디바이스(160)로부터 요청을 수신할 수 있다. 요청은 예를 들어 도 1에 도시된 요청 관리 컴포넌트(112)에 의해 수신될 수 있다. 동작(210)에서, 요청 관리 컴포넌트(112)와 같은 데이터 처리 시스템(102) 또는 그 컴포넌트는 요청을 처리하여 요청으로부터 URL 및 식별자를 결정하거나 추출할 수 있다. URL은 애플리케이션과 연관된 서비스를 제공하는 웹 사이트 또는 기타 웹 기반 리소스의 주소일 수 있다. URL은 애플리케이션 개발자 디바이스(160)의 사용자와 연관된 웹사이트의 URL일 수 있다. 예를 들어, URL은 애플리케이션 개발자 디바이스(160)의 사용자를 고용하는 회사와 연관된 웹사이트의 URL일 수 있다. 따라서 애플리케이션의 식별자(예: 선언된 엔터티)와 애플리케이션의 URL 간에 연관이 있을 수 있다. 데이터 처리 시스템(102)은 또한(또는 대안적으로) URL 대신에 다른 유형의 리소스 식별자를 결정하기 위한 요청을 처리할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 URI를 결정하기 위한 요청을 대신 처리할 수 있다. URI는 하나 이상의 웹사이트를 포함할 수 있는 네트워크 리소스의 식별자일 수 있다.
동작(215)에서, 데이터 처리 시스템(102)은 요청으로부터 추출된 정보에 기초하여 링크 세트에 대한 요청을 생성할 수 있다. 예를 들어, 요청된 링크는 동작(210)의 요청에서 추출된 URL(또는 URI 또는 기타 리소스 식별자)을 가리키는 링크일 수 있다. 달리 말하면, 데이터 처리 시스템(102)은 애플리케이션 개발자 디바이스(160)로부터 수신된 요청의 URL에 대응하는 타겟을 갖는 링크 세트에 대한 요청을 생성할 수 있다. 요청은 링크 관리 컴포넌트(114)에 의해 생성될 수 있다. 요청은 예를 들어 URL을 지정하는 RPC로 형식화될 수 있다. 링크 관리 컴포넌트(114)는 요청을 서버(170)로 전송할 수 있으며, 이는 프록시일 수 있거나 프록시를 포함할 수 있다.
동작(220)에서, 서버(170)는 동작(215)에서 데이터 처리 시스템(102)에 의해 요청된 링크 세트를 식별할 수 있다. 예를 들어, 서버(170)는 링크의 인덱스를 호스팅하거나 저장할 수 있다. 링크는 웹 페이지 또는 기타 네트워크 리소스에 대한 HTTP 링크일 수 있다. 링크는 다른 방식으로 형식을 지정할 수도 있다. 예를 들어, 링크는 네트워크 리소스를 가리키거나 참조하거나 식별하는 데이터 또는 데이터 표현일 수 있다. 링크는 마크업 언어에 따라 형식을 지정할 수 있다. 예를 들어, 하이퍼텍스트 마크업 언어(HTML)를 사용하여 링크의 형식을 지정할 수 있다. 적어도 일부 링크는 XML(extensible markup language)을 사용하여 형식을 지정할 수도 있다. 링크 중 적어도 일부는 컴퓨터 네트워크를 통해 액세스할 수 있는 데이터 또는 기타 전자 리소스를 참조하기 위한 참조 메커니즘을 각각 포함할 수 있다. 링크 중 적어도 일부는 웹 기반 문서의 특정 섹션과 같은 네트워크 리소스의 특정 부분에 바인딩된 앵커 링크일 수 있다. 링크 중 적어도 일부는 링크 선택 시 파일이 다운로드되도록 하는 다운로드 링크일 수 있다. 링크 중 적어도 일부는 링크 선택 시 이메일 프로그램이 시작되거나 실행되도록 하는 이메일 링크일 수 있다. 서버(170)는 요청의 URL에 대응하는 타겟을 갖는 모든 링크를 식별하기 위해 인덱스를 검색할 수 있다. 식별된 링크는 함께 데이터 처리 시스템(102)에 의해 요청된 링크 세트를 형성할 수 있다. 서버(170)는 식별된 링크 세트를 데이터 처리 시스템(102)에 반환할 수 있다. 예를 들어, 링크 세트는 데이터 처리 시스템(102)으로부터 수신된 요청에 대한 응답 형식으로 데이터 처리 시스템(102)에 반환될 수 있다.
동작(225)에서, 데이터 처리 시스템(102)은 서버(170)로부터 수신된 링크 세트의 서브세트를 식별할 수 있다. 요청 검증 컴포넌트(116)는 링크의 서브세트를 결정할 수 있다. 링크의 서브세트에는 동작(210)의 요청에서 추출한 식별자와 매치하는 링크 텍스트가 있는 링크가 포함될 수 있다. 예를 들어, 각 링크는 문자열일 수 있는 링크 텍스트를 포함할 수 있다. 링크의 문자열은 링크가 웹 브라우저에서 렌더링될 때 표시되는 문자 세트일 수 있다. 요청 검증 컴포넌트(116)는 문자열이 식별자와 매치하는 적어도 일부를 포함하는지 여부를 결정하기 위해 각 링크에 대한 문자열을 파싱함으로써 서브세트에 포함될 링크를 식별할 수 있다. 예를 들어, 요청 검증 컴포넌트(116)는 식별자가 링크에 대한 문자열 내의 문자들의 세트로서 나타나는지를 결정함으로써 매치를 결정할 수 있다. 요청 검증 컴포넌트(116)는 또한 부분 매치를 결정할 수 있다. 예를 들어, 전체 식별자가 표시되지 않는 경우에도 식별자의 적어도 일부가 링크의 문자열에 나타날 수 있다. 요청 검증 컴포넌트(116)는 또한 하나 이상의 대체 식별자를 결정할 수 있다. 대체 식별자는 동작(210)의 요청에서 추출된 식별자와 다른 식별자일 수 있지만 여전히 요청에서 추출된 식별자와 동일한 엔터티를 참조한다. 예를 들어, 대체 식별자에는 엔터티에 대한 약어나 대체 철자가 포함될 수 있다. 요청 검증 컴포넌트(116)는 링크와 대체 식별자 사이의 매치를 결정할 수 있고, 따라서 매치 링크의 서브세트에 링크를 추가할 수 있다.
동작(230)에서, 데이터 처리 시스템(102)은 요청에 대한 검증 상태를 결정할 수 있다. 검증 상태는 예를 들어 요청 검증 컴포넌트(116)에 의해 결정될 수 있다. 요청 검증 컴포넌트(116)는 링크 관리 컴포넌트(114)에 의해 요청의 식별자 또는 대체 식별자와 매치하는 것으로 결정된 링크의 서브세트에 기초하여 검증 상태를 결정할 수 있다. 예를 들어, 요청 검증 컴포넌트(116)는 매치 레벨을 결정하기 위해 서버(170)로부터 수신된 링크의 총 수와 링크의 매치 서브세트 내의 링크의 수를 비교할 수 있다. 요청 검증 컴포넌트(116)는 매치 레벨이 미리 결정된 임계치를 충족하거나 초과한다는 결정에 응답하여 요청이 검증되었다고 결정할 수 있다. 요청 검증 컴포넌트(116)는 매치 레벨이 미리 결정된 임계치를 충족하거나 초과하지 않는다는 결정에 응답하여 요청이 검증되지 않았음을 결정할 수 있다(예를 들어, 요청이 거부되거나 거부됨). 요청 검증 컴포넌트(116)는 또한 애플리케이션 개발자 디바이스(160)에 대한 요청의 검증 상태의 표시를 제공할 수 있다. 동작(235)에서, 애플리케이션 개발자 디바이스(160)는 데이터 처리 시스템(102)으로부터 검증 상태를 수신할 수 있어서, 애플리케이션 개발자 디바이스(160)의 사용자는 요청의 검증 상태로서 통지될 수 있다.
동작(240)에서, 데이터 처리 시스템(102)은 동작(230)에서 결정된 검증 상태에 기초하여 요청이 검증되었는지 여부를 결정할 수 있다. 데이터 처리 시스템(102)은 요청이 검증되지 않았다는 결정에 응답하여 동작(245)에서 애플리케이션에 대한 트리거 키워드의 할당을 방지할 수 있다. 예를 들어 트리거 키워드는 동작(210)에서 요청에서 추출한 식별자(ID)일 수 있다. 요청이 검증되지 않은 경우, 이는 애플리케이션 개발자 디바이스(160)의 사용자가 트리거 키워드(예를 들어, 식별자)를 요청에 제공된 URL과 사기적으로 연관시키려고 시도할 가능성의 상대적으로 더 높은 정도를 나타낼 수 있다. 결과적으로, (예를 들어, 클라이언트 컴퓨팅 장치(140)를 사용하여) 그러한 애플리케이션을 호출하는 사용자는 악의적이거나 사기적인 목적으로 사용되는 애플리케이션과 상호작용하는 동안 제공하는 정보를 가질 더 큰 위험에 처할 수 있다. 트리거 키워드가 애플리케이션에 할당되는 것을 방지함으로써, 데이터 처리 시스템(102)은 또한 사용자가 트리거 키워드를 제공함으로써 애플리케이션을 트리거하는 것을 방지한다. 따라서 사용자는 요청이 검증되지 않은 사기 애플리케이션으로부터 보호될 수 있다.
데이터 처리 시스템(102)은 요청이 검증되었다고 결정할 수 있고, 동작(250)에서 트리거 키워드를 애플리케이션에 할당함으로써 그 결정에 응답할 수 있다. 데이터 처리 시스템(102)은 애플리케이션 개발자 디바이스(160)로부터 애플리케이션을 수신할 수 있다. 데이터 처리 시스템(102)은 또한 애플리케이션의 적어도 일부를 생성하거나 구축할 수 있다. 트리거 키워드를 할당하는 것은 트리거 키워드에 대응하는 오디오 입력이, 예를 들어 클라이언트 컴퓨팅 장치(140)로부터 수신될 때 애플리케이션이 실행되거나 액세스되게 하는 트리거 키워드와 애플리케이션 사이의 연관을 생성하는 것을 포함할 수 있다.
동작(255)에서, 클라이언트 컴퓨팅 장치(140)의 사용자는 오디오 입력을 생성할 수 있다. 오디오 입력은 음성 입력일 수 있다. 예를 들어, 클라이언트 컴퓨팅 장치(140)의 사용자는 센서(144) 또는 변환기(146)와 같은 클라이언트 컴퓨팅 장치(140)의 컴포넌트에 의해 검출될 수 있는 단어 또는 구를 말할 수 있다. 오디오 입력은 동작(205)에서 애플리케이션 개발자 디바이스(160)에 의해 생성된 요청과 연관된 애플리케이션에 대한 트리거 키워드에 대응할 수 있다. 예를 들어, 트리거 키워드는 데이터 처리 시스템(102)이 동작(210)에서의 요청으로부터 추출한 식별자이거나 이를 포함할 수 있고, 클라이언트 컴퓨팅 장치(140)에 의해 생성된 오디오 입력은 트리거 키워드에 대응할 수 있다. 클라이언트 컴퓨팅 장치(140)는 오디오 입력을 데이터 처리 시스템(102)으로 전송할 수 있다. 데이터 처리 시스템(102)이 애플리케이션 개발자 디바이스(160)로부터 수신된 요청이 동작(240)에서 검증되지 않았다고 결정할 때, 트리거 키워드는 애플리케이션과 연관되지 않고 오디오 입력의 수신은 애플리케이션을 실행하게 하지 않을 것이다. 반면에, 트리거 키워드는 애플리케이션과 연관되고, 동작(260)에서의 오디오 입력의 수신은 데이터 처리 시스템(102)이 애플리케이션 개발자 디바이스(160)로부터 수신된 요청이 동작(240)에서 검증되었다고 결정할 때 애플리케이션이 실행되게 할 수 있다.
예를 들어, 애플리케이션을 실행하면 동작(265)에서 애플리케이션과 연관된 액션이 제공될 수 있다. 액션은 트리거 키워드에 대한 임의의 응답 또는 클라이언트 컴퓨팅 장치(140)에 의해 제공되는 임의의 다른 입력 또는 요청일 수 있다. 이러한 방식으로, 데이터 처리 시스템(102)은 동작(270)에서 애플리케이션의 적어도 일부가 클라이언트 컴퓨팅 장치(140) 상에서 실행되게 할 수 있다. 애플리케이션의 적어도 다른 부분은 원격으로, 예를 들어 데이터 처리 시스템(102) 또는 클라이언트 컴퓨팅 장치(140)로부터 멀리 떨어진 다른 컴퓨팅 시스템에서 실행할 수 있다. 따라서, 클라이언트 컴퓨팅 장치(140)의 사용자는 요청이 동작(240)에서 검증되었을 때 트리거 키워드에 대응하는 오디오 입력을 제공함으로써 애플리케이션과 상호작용할 수 있다. 그러나, 요청이 검증되지 않은 경우, 트리거 키워드는 애플리케이션과 연관되지 않고 클라이언트 컴퓨팅 장치(140)의 사용자는 트리거 키워드에 대응하는 오디오 입력을 제공함으로써 애플리케이션과 상호작용할 수 없을 수 있다. 따라서 사용자는 데이터 처리 시스템(102)에 의해 사기 위험이 더 높은 것으로 결정된 애플리케이션과 상호작용하는 것이 방지될 수 있다.
도 3은 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 예시적인 방법(300)의 예시이다. 방법(300)은 도 1에 도시된 시스템(100), 도 2에 도시된 시스템(200), 또는 도 4에 도시된 시스템(400)의 하나 이상의 컴포넌트, 시스템 또는 요소에 의해 수행될 수 있다. 예를 들어, 방법(300)은 도 1에 도시된 데이터 처리 시스템(102)과 같은 데이터 처리 시스템에 의해 수행될 수 있다. 동작(305)에서, 데이터 처리 시스템(102)은 애플리케이션을 생성하기 위한 요청을 수신할 수 있다. 애플리케이션은 음성 기반 소프트웨어 애플리케이션일 수 있다. 데이터 처리 시스템(102)은 도 1에 도시된 애플리케이션 개발자 디바이스(160)로부터 요청을 수신할 수 있다. 요청에는 애플리케이션과 연관된 정보가 포함될 수 있다. 예를 들어 요청에는 URL과 식별자가 포함될 수 있다. 식별자는 애플리케이션 또는 애플리케이션 개발자 디바이스(160)와 연관된 엔티티에 대응할 수 있다. 예를 들어, 식별자는 애플리케이션 개발자 디바이스(160)의 사용자가 구성원인 엔티티, 예를 들어 직원에 대응할 수 있다. 따라서, 식별자는 또한 본 개시에서 선언된 엔티티로 지칭될 수 있다. 식별자는 애플리케이션 개발자 디바이스(160)의 사용자가 애플리케이션과 연관시키고자 하는 트리거 키워드의 역할을 할 수 있다. 예를 들어, 트리거 키워드는 클라이언트 컴퓨팅 장치(140)와 같은 컴퓨팅 장치로부터의 오디오 입력으로서 제공될 때 애플리케이션의 실행을 야기하는 키워드일 수 있다. 애플리케이션 개발자 디바이스(160)(또는 그 사용자)가 식별자에 의해 표현된 선언된 엔티티와 실제로 연관되지 않고 대신에 선언된 엔티티를 사기적으로 가장하려고 시도하는 위험이 있을 수 있다. 예를 들어, 애플리케이션을 사기로 선언된 엔터티와 연결하면 사용자가 애플리케이션을 실행할 때 다른 엔터티와 상호 작용하고 있다고 믿도록 속일 수 있다. 따라서, 데이터 처리 시스템(102)이 그러한 사기성 요청을 검출하고 방지하는 것이 유용할 수 있다.
동작(310)에서, 데이터 처리 시스템은 요청에 제공된 URL을 포함하는 링크 세트를 포함할 수 있다. 예를 들어, 링크는 URL을 참조하거나 가리키는 링크일 수 있다. 링크가 타겟(대상)으로 URL을 포함하는 경우 링크는 URL을 가리킬 수 있다. 링크는 웹 기반 리소스 또는 페이지를 참조하는 HTTP 링크일 수 있다. 요청 관리 컴포넌트(112) 또는 링크 관리 컴포넌트(114)와 같은 데이터 처리 시스템(102)의 컴포넌트는 요청으로부터 URL을 추출할 수 있다. 링크는 웹 페이지의 인덱스를 참조하여 결정할 수 있다. 예를 들어, 인덱스는 서버(170)와 같은 원격 컴퓨팅 장치에서 호스팅될 수 있다. 데이터 처리 시스템(102)은 원격 컴퓨팅 장치가 URL을 포함하는 링크 세트를 반환하게 하는 요청을 원격 컴퓨팅 장치에 전송할 수 있다. 요청은 RPC로 형식화될 수 있다.
동작(315)에서, 데이터 처리 시스템(102)은 애플리케이션 개발자 디바이스(160)로부터의 요청에 제공된 식별자에 대한 참조(reference)를 포함하는 링크의 서브세트를 결정할 수 있다. 각 링크는 링크 텍스트라고 부를 수 있는 각각의 문자열을 포함할 수 있다. 링크는 연결된 링크 텍스트 또는 문자열이 식별자를 포함하거나 적어도 부분적으로 매치하는 경우 식별자를 참조하는 것으로 식별될 수 있다. 따라서, 데이터 처리 시스템(102)은 요청으로부터 추출된 식별자와 매치하는 링크 텍스트를 갖는 링크를 포함하도록 링크의 서브세트를 식별할 수 있다. 데이터 처리 시스템(102)은 문자열이 식별자와 매치하는 적어도 일부를 포함하는지 여부를 결정하기 위해 각 링크에 대한 문자열을 파싱함으로써 서브세트에 포함될 링크를 식별할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 식별자의 문자를 링크 텍스트에 포함된 문자와 비교하여 매치를 결정할 수 있다. 데이터 처리 시스템(102)은 또한 식별자의 문자들의 서브세트가 링크의 링크 텍스트에 나타나는 반면 식별자의 문자들의 전체 세트가 존재하지 않을 수 있는 경우와 같은 부분적 매치(partial match)를 결정할 수 있다. 데이터 처리 시스템(102)은 또한 하나 이상의 대체 식별자를 결정할 수 있다. 대체 식별자는 요청에 포함된 식별자와 다르지만 여전히 요청에서 추출된 식별자와 동일한 엔터티를 참조하는 식별자일 수 있다. 예를 들어, 대체 식별자는 식별자가 참조하는 엔터티(예: 선언된 엔터티)에 대한 약어 또는 대체 철자를 포함할 수 있다. 요청 검증 컴포넌트(116)는 링크와 대체 식별자 사이의 매치를 결정할 수 있고, 따라서 매치 링크의 서브세트에 링크를 추가할 수 있다. 각 링크가 매치를 결정하기 위해 식별자(또는 대체 식별자)와 비교된 후, 매치하는 모든 링크는 동작(315)에서 결정된 링크의 서브세트에 포함될 수 있다.
동작(320)에서, 데이터 처리 시스템(102)은 링크의 서브세트를 임계치와 비교할 수 있다. 이 비교를 위한 임계치(임계치 값)는 동작(315)에서 식별된 링크의 서브세트도 포함하는 동작(310)에서 식별된 복수의 링크의 백분율과 같은 백분율일 수 있다. 다르게 표현하자면, 임계치는 요청과 함께 애플리케이션 개발자 디바이스(160)로부터 수신된 식별자(또는 대체 식별자)와 매치(또는 적어도 부분적으로 매치)하는 문자열을 또한 포함하는 요청과 함께 애플리케이션 개발자 디바이스(160)로부터 수신된 URL을 포함하는 링크의 최소 부분일 수 있다. 임계치는 백분율이 아니라 숫자일 수도 있다. 따라서, 동작(315)에서 식별된 링크의 서브세트에 포함된 링크의 수는 임계치 수와 비교되어 링크의 서브세트에 포함된 링크의 수가 임계치 수를 충족하는지(예를 들어, 충족하거나 초과하는지) 결정할 수 있다.
데이터 처리 시스템(102)은 동적 방식으로 이 비교를 위한 임계치를 선택할 수 있다. 예를 들어, 임계치(임계치 값)는 다양한 기준에 따라 선택될 수 있다. 기준에는 요청과 연관된 애플리케이션 유형이 포함될 수 있다. 예를 들어, 특정 유형의 애플리케이션은 다른 유형보다 사기 위험이 더 높을 수 있다. 사기 위험이 더 높은 애플리케이션에는 금융 관련 애플리케이션(예: 은행 애플리케이션) 또는 사용자로부터 개인 정보 또는 민감한 정보를 받거나 액세스할 수 있는 애플리케이션이 포함될 수 있다. 더 높은 위험을 제시하는 것으로 결정된 애플리케이션에 대해, 데이터 처리 시스템(102)은 요청의 검증을 위해 더 높은 임계치를 선택할 수 있다. 데이터 처리 시스템(102)은 요청과 연관된 위험 레벨을 결정할 수 있으며, 이는 애플리케이션의 유형 또는 다른 기준에 기초할 수 있다. 위험 레벨은 이진(바이너리) 위험 레벨(예: 고위험 또는 저위험)일 수 있다. 위험 레벨은 0과 1 사이의 십진수 값 또는 1과 10 또는 1과 100 사이의 정수 값과 같은 숫자 값일 수도 있다. 데이터 처리 시스템(102)은 결정된 위험 레벨에 부분적으로 기초하여 비교를 위한 임계치를 선택할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 더 높은 위험 레벨에 대해 더 높은 임계치를 선택할 수 있고, 이에 의해 더 위험한 요청의 검증을 위해 더 높은 매치 레벨을 요구할 수 있다.
동작(325)에서, 데이터 처리 시스템(102)은 요청의 검증 상태를 결정할 수 있다. 검증 상태는 동작(320)에서 수행된 비교를 기반으로 결정할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 식별자 또는 대체 식별자를 임계치와 매치시키는 링크 텍스트(예를 들어, 문자열)를 갖는 링크의 서브세트를 비교하여 매치 레벨을 결정할 수 있다. 데이터 처리 시스템(102)은 링크의 서브세트가 임계치를 충족하거나 초과할 때(예: 링크의 서브세트에 포함된 링크의 수가 임계치 이상) 요청이 검증되었다고 결정할 수 있다. 그러나, 링크의 서브세트가 임계치를 충족하거나 초과하지 않는 경우(예를 들어, 링크의 서브세트에 포함된 링크의 수가 임계치보다 작은 경우), 데이터 처리 시스템(102)은 요청이 검증되지 않은 것으로 결정할 수 있다. 검증되지 않은 요청은 거부되거나 거부된 요청이라고도 한다. 데이터 처리 시스템(102)은 요청의 검증 상태를 예를 들어 데이터 저장소(118)에 저장할 수 있다. 데이터 처리 시스템(102)은 또한 애플리케이션 개발자 디바이스(160)에 검증 상태를 통지할 수 있다.
요청이 검증될 때(예를 들어, 결정된 검증 상태에 의해 표시되는 바와 같이), 데이터 처리 시스템(102)은 동작(330)에서 애플리케이션에 트리거 키워드를 할당할 수 있다. 데이터 처리 시스템(102)은 애플리케이션 개발자 디바이스(160)로부터 애플리케이션의 적어도 일부를 수신할 수 있다. 데이터 처리 시스템(102)은 또한 애플리케이션 자체의 적어도 일부를 생성하거나 구축할 수 있다. 트리거 키워드를 애플리케이션에 할당하는 것은 트리거 키워드에 대응하는 오디오 입력이, 예를 들어 클라이언트 컴퓨팅 장치(140)로부터 수신될 때 애플리케이션이 실행되거나 액세스되게 하는 트리거 키워드와 애플리케이션 사이의 연관을 생성하는 것을 포함할 수 있다. 따라서 트리거 키워드를 나타내는 오디오 데이터도 애플리케이션에 할당할 수 있다. 데이터 처리 시스템(102)은 동작(305)에서 수신된 요청에 포함된 정보에 기초하여 키워드를 결정할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 요청에 포함된 식별자인 트리거 키워드를 결정할 수 있다. 데이터 처리 시스템(102)은 트리거 키워드와 애플리케이션 사이의 연관을 예를 들어 데이터 저장소(118)에 저장할 수 있다. 한편, 요청이 검증되지 않은 경우, 데이터 처리 시스템(102)은 키워드가 애플리케이션과 연관되는 것을 방지할 수 있다.
동작(335)에서, 데이터 처리 시스템(102)은 트리거 키워드에 대응하는 오디오 입력을 수신할 수 있다. 오디오 입력은 클라이언트 컴퓨팅 장치(140)와 같은 컴퓨팅 장치로부터 수신될 수 있다. 오디오 입력은 클라이언트 컴퓨팅 장치(140)의 사용자가 애플리케이션을 실행, 액세스 또는 그렇지 않으면 상호작용하기를 원한다는 것을 나타낼 수 있다. 예를 들어, 클라이언트 컴퓨팅 장치(140)의 사용자는 애플리케이션을 다운로드했거나 그렇지 않으면 획득할 수 있거나, 데이터 처리 시스템(102)에서 실행되는 애플리케이션에 액세스할 수 있고, 트리거 키워드를 발화함으로써 클라이언트 컴퓨팅 장치(140)에서 애플리케이션과 상호작용하기를 원할 수 있다. 따라서, 컴퓨팅 장치(140)는 애플리케이션을 실행할 수 있거나, 데이터 처리 시스템(102)과 같은 애플리케이션을 실행하는 원격 컴퓨팅 장치를 통해 애플리케이션에 액세스할 수 있다. 컴퓨팅 장치(140)는 또한 애플리케이션의 일부에 액세스할 수 있는 반면, 데이터 처리 시스템(102)과 같은 원격 컴퓨팅 장치는 애플리케이션의 다른 부분을 실행한다. 데이터 처리 시스템(102)은 오디오 입력이 동작(330)에서 애플리케이션에 할당된 트리거 키워드에 대응한다고 결정하기 위해, 예를 들어 자연어 프로세서 컴포넌트(106)를 사용하여 오디오 입력을 파싱할 수 있다. 데이터 처리 시스템(102)이 오디오 입력이 트리거 키워드에 대응한다고 결정할 때, 데이터 처리 시스템(102)은 애플리케이션이 동작(340)에서 실행되게 할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 트리거 키워드에 대응하는 오디오 입력이 수신된 컴퓨팅 장치(예를 들어, 클라이언트 컴퓨팅 장치(140)) 상에서 애플리케이션이 실행되게 할 수 있다. 데이터 처리 시스템(102)은 또한 애플리케이션이 데이터 처리 시스템(102) 자체 또는 서버(170)와 같은 다른 컴퓨팅 장치에서 실행되게 할 수 있다. 그러한 예에서, 애플리케이션으로부터의 출력은 클라이언트 컴퓨팅 장치(140)가 애플리케이션과 원격으로 상호작용할 수 있도록 클라이언트 컴퓨팅 장치(140)에 제공될 수 있다. 데이터 처리 시스템(102)은 또한 애플리케이션의 일부가 클라이언트 컴퓨팅 장치(140)로부터 원격으로 실행되도록 할 수 있는 반면, 애플리케이션의 다른 부분은 클라이언트 컴퓨팅 장치(140) 상에서 실행할 수 있다.
따라서, 방법(300)을 사용하여, 클라이언트 컴퓨팅 장치(140)의 사용자는 잠재적인 사기에 대해 데이터 처리 시스템(102)에 의해 이전에 평가된 애플리케이션을 호출, 액세스 또는 실행할 수 있다. 데이터 처리 시스템(102)은 검증되지 않은 연관된 요청에 기초하여 애플리케이션에 대한 트리거 키워드의 할당을 방지할 수 있기 때문에, 클라이언트 컴퓨팅 장치(140)의 사용자는 트리거 키워드에 대응하는 음성 입력을 제공함으로써 그러한 애플리케이션을 호출하는 것으로부터 보호될 수 있다. 데이터 처리 시스템(102)은 요청이 검증된 후에만 트리거 키워드를 애플리케이션과 연관시켜 클라이언트 컴퓨팅 장치(140)의 사용자가 사기성 애플리케이션과 실수로 상호작용하는 것을 보호한다.
방법(300)은 또한 추가 애플리케이션에 대한 트리거 키워드를 검증하기 위해 임의의 횟수로 반복될 수 있다. 예를 들어, 애플리케이션 개발자 장치(160)와 같은 개발자 컴퓨팅 장치로부터의 후속 요청은 데이터 처리 시스템(102)에 의해 수신될 수 있다. 데이터 처리 시스템(102)은 방법(300)과 관련하여 위에서 설명된 것과 유사한 단계를 수행할 수 있다. 일부 경우에, 데이터 처리 시스템(102)은 후속 요청이 검증되지 않았다고 결정할 수 있고, 결과적으로 후속 요청에 대응하는 애플리케이션과 함께 트리거 키워드의 할당을 방지할 수 있다.
도 4는 예시적인 컴퓨터 시스템(400)의 블록도이다. 컴퓨터 시스템(400)은 또한 컴퓨팅 장치(400)로 지칭될 수 있다. 컴퓨터 시스템(400)은 시스템(100) 또는 데이터 처리 시스템(102)과 같은 그 컴포넌트를 포함하거나 구현하기 위해 사용될 수 있다. 데이터 처리 시스템(102)은 지능형 개인 어시스턴트 또는 음성 기반 디지털 어시스턴트를 포함할 수 있다. 컴퓨터 시스템(400)은 정보를 통신하기 위한 버스(405) 또는 다른 통신 컴포넌트 및 정보를 처리하기 위해 버스(405)에 연결된 프로세서(410) 또는 처리 회로를 포함한다. 컴퓨터 시스템(400)은 또한 정보를 처리하기 위해 버스에 연결된 하나 이상의 프로세서(410) 또는 처리 회로를 포함할 수 있다. 컴퓨터 시스템(400)은 또한 정보를 저장하기 위해 버스(405)에 연결된 랜덤 액세스 메모리(RAM) 또는 다른 동적 저장 장치와 같은 주 메모리(415), 및 프로세서(410)에 의해 실행될 명령(명령어)을 포함한다. 메인 메모리(415)는 데이터 저장소(118)이거나 이를 포함할 수 있다. 메인 메모리(415)는 또한 프로세서(410)에 의한 명령어 실행 동안 위치 정보, 임시 변수, 또는 다른 중간 정보를 저장하는 데 사용될 수 있다. 컴퓨터 시스템(400)은 프로세서(410)에 대한 정적 정보 및 명령어를 저장하기 위해 버스(405)에 연결된 읽기 전용 메모리(ROM)(420) 또는 다른 정적 저장 장치를 더 포함할 수 있다. 고체 상태 장치, 자기 디스크 또는 광 디스크와 같은 저장 장치(425)는 정보 및 명령을 지속적으로 저장하기 위해 버스(405)에 연결될 수 있다. 저장 장치(425)는 데이터 저장소(118)를 포함하거나 그 일부일 수 있다.
컴퓨터 시스템(400)은 버스(405)를 통해 사용자에게 정보를 디스플레이하기 위해 액정 디스플레이 또는 능동 매트릭스 디스플레이와 같은 디스플레이(435)에 연결될 수 있다. 영숫자 및 기타 키를 포함하는 키보드와 같은 입력 장치(430)는 정보 및 명령 선택을 프로세서(410)에 전달하기 위해 버스(405)에 연결될 수 있다. 입력 장치(430)는 터치 스크린 디스플레이(435)를 포함할 수 있다. 입력 장치(430)는 또한 방향 정보 및 명령 선택을 프로세서(410)에 전달하고 디스플레이(435) 상의 커서 움직임을 제어하기 위한 마우스, 트랙볼, 또는 커서 방향 키와 같은 커서 제어를 포함할 수 있다. 디스플레이(435)는 예를 들어 데이터 처리 시스템(102), 클라이언트 컴퓨팅 장치(140) 또는 도 1의 다른 컴포넌트의 일부일 수 있다.
여기에 설명된 프로세스, 시스템 및 방법은 프로세서(410)가 메인 메모리(415)에 포함된 명령어 배열을 실행하는 것에 응답하여 컴퓨터 시스템(400)에 의해 구현될 수 있다. 그러한 명령어는 저장 장치(425)와 같은 다른 컴퓨터 판독 가능 매체로부터 주 메모리(415)로 판독될 수 있다. 메인 메모리(415)에 포함된 명령어 배열의 실행은 컴퓨터 시스템(400)이 여기에 설명된 예시적인 프로세스를 수행하게 한다. 다중 처리 배열의 하나 이상의 프로세서는 또한 메인 메모리(415)에 포함된 명령(명령어)을 실행하기 위해 사용될 수 있다. 하드 와이어드 회로는 여기에 설명된 시스템 및 방법과 함께 소프트웨어 명령 대신에 또는 이와 함께 사용될 수 있다. 여기에 설명된 시스템 및 방법은 하드웨어 회로 및 소프트웨어의 특정 조합으로 제한되지 않는다.
예시적인 컴퓨팅 시스템이 도 4에서 설명되었지만, 본 명세서에 기술된 동작을 포함하는 요지는 본 명세서에 개시된 구조 및 그 구조적 등가물을 포함하는 다른 유형의 디지털 전자 회로, 또는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서, 또는 하나 이상의 조합으로 구현될 수 있다.
여기에 설명된 시스템이 사용자에 대한 개인 정보를 수집하거나 개인 정보를 사용할 수 있는 상황의 경우, 사용자는 개인 정보(예: 사용자의 소셜 네트워크, 소셜 활동 또는 활동, 사용자의 선호도 또는 사용자의 위치에 대한 정보)를 수집할 수 있는 프로그램 또는 기능을 제어하거나 사용자와 더 관련이 있는 콘텐츠 서버 또는 기타 데이터 처리 시스템에서 콘텐츠를 수신할지 여부 또는 수신 방법을 제어할 수 있다. 또한 특정 데이터는 저장 또는 사용되기 전에 하나 이상의 방식으로 익명화될 수 있으므로 파라미터를 생성할 때 개인 식별 정보가 제거된다. 예를 들어, 사용자의 신원을 익명화하여 사용자에 대한 개인 식별 정보를 확인할 수 없거나 위치 정보를 얻은 사용자의 지리적 위치(예: 도시, 우편 번호 또는 주 레벨)를 일반화하여 사용자의 특정 위치를 확인할 수 없도록 할 수 있다. 따라서 사용자는 자신에 대한 정보를 수집하고 콘텐츠 서버에서 사용하는 방법을 제어할 수 있다.
본 명세서에 기술된 요지 및 동작은 본 명세서에 개시된 구조 및 그 구조적 등가물을 포함하는 디지털 전자 회로, 또는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에 기술된 요지는 하나 이상의 컴퓨터 프로그램, 예를 들어, 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위해 하나 이상의 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램 명령어의 하나 이상의 회로로 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령어는 인공적으로 생성된 전파 신호, 예를 들어 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위한 정보를 인코딩하기 위해 생성된 기계 생성 전기, 광학 또는 전자기 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 저장 장치, 컴퓨터 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 어레이 또는 장치, 또는 이들 중 하나 이상의 조합일 수 있거나 이에 포함될 수 있다. 컴퓨터 저장 매체는 전파 신호가 아니지만, 컴퓨터 저장 매체는 인위적으로 생성된 전파 신호로 인코딩된 컴퓨터 프로그램 명령어의 소스 또는 목적지가 될 수 있다. 컴퓨터 저장 매체는 또한 하나 이상의 개별 컴포넌트 또는 매체(예: 다중 CD, 디스크 또는 기타 저장 장치)이거나 이에 포함될 수 있다. 본 명세서에서 설명되는 동작들은 하나 이상의 컴퓨터 판독 가능한 저장 장치에 저장되거나 다른 소스로부터 수신된 데이터에 대해 데이터 처리 장치에 의해 수행되는 동작으로 구현될 수 있다.
"데이터 처리 시스템" "컴퓨팅 장치" "컴포넌트" 또는 "데이터 처리 장치"라는 용어는 데이터를 처리하기 위한 다양한 장치, 디바이스 및 기계를 포함하며, 예를 들어 프로그램 가능한 프로세서, 컴퓨터, 시스템 온 칩(system on a chip), 또는 다수의 것, 또는 이들의 조합을 포함한다. 장치는 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)와 같은 특수 목적 논리 회로를 포함할 수 있다. 장치는 또한 하드웨어 외에, 해당 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 플랫폼 간 런타임 환경, 가상 머신, 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 장치 및 실행 환경은 웹 서비스, 분산 컴퓨팅 및 그리드 컴퓨팅 인프라와 같은 다양한 컴퓨팅 모델 인프라를 실현할 수 있다. 예를 들어, 직접 액션 API(108) 또는 NLP 컴포넌트(106) 및 다른 데이터 처리 시스템(102) 컴포넌트는 하나 이상의 데이터 처리 장치, 시스템, 컴퓨팅 장치 또는 프로세서를 포함하거나 공유할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 앱, 스크립트 또는 코드라고도 함)은 컴파일 또는 해석된 언어, 선언적 또는 절차적 언어를 포함한 모든 형태의 프로그래밍 언어로 작성할 수 있고, 독립 실행형 프로그램 또는 모듈, 컴포넌트, 서브루틴, 개체 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 유닛을 포함하여, 어떤 형태로든 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있다. 컴퓨터 프로그램은 다른 프로그램이나 데이터(예: 마크업 언어 문서에 저장된 하나 이상의 스크립트)를 포함하는 파일의 일부, 해당 프로그램 전용 단일 파일 또는 여러 개의 조정된 파일(예: 하나 이상의 모듈, 하위 프로그램 또는 코드 부분을 저장하는 파일)에 저장할 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있고 통신 네트워크로 상호 연결된 여러 컴퓨터에서 실행되도록 배포될 수 있다.
본 명세서에 기술된 프로세스 및 논리 흐름은 입력 데이터에 대해 동작하고 출력을 생성함으로써 동작을 수행하기 위해 하나 이상의 컴퓨터 프로그램(예를 들어, 데이터 처리 시스템(102)의 컴포넌트)을 실행하는 하나 이상의 프로그래머블 프로세서에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)와 같은 특수 목적 논리 회로에 의해 수행될 수 있고 장치도 구현될 수 있다. 컴퓨터 프로그램 명령어 및 데이터를 저장하기에 적합한 장치는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함하며, 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치와 같은 반도체 메모리 장치; 예를 들어 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크; 자기 광 디스크; 및 CD ROM 및 DVD-ROM 디스크를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.
여기에 설명된 요지는 예를 들어 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 미들웨어 컴포넌트(예: 애플리케이션 서버)를 포함하거나, 프론트 엔드 컴포넌트예를 들어 그래픽 사용자 인터페이스가 있는 클라이언트 컴퓨터 또는 사용자가 본 명세서에 설명된 요지의 구현과 상호작용할 수 있는 웹 브라우저)를 포함하거나, 또는 하나 이상의 백엔드, 미들웨어 또는 프론트 엔드 컴포넌트의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 통신 네트워크와 같은 디지털 데이터 통신의 모든 형태 또는 매체에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망("LAN") 및 광역 네트워크("WAN"), 상호 네트워크(예: 인터넷), 피어 투 피어 네트워크(예: 에드 혹(ad hoc) 피어- 투피어 네트워크)를 포함한다.
시스템(100) 또는 시스템(400)과 같은 컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크(예: 네트워크(105))를 통해 상호작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램 덕분에 발생한다. 일부 구현에서, 서버는 데이터(예: 디지털 컴포넌트를 나타내는 데이터 패킷)를 (예: 클라이언트 장치와 상호 작용하는 사용자에게 데이터를 표시하고 사용자 입력을 수신하기 위한 목적으로) 클라이언트 장치로 전송한다. 클라이언트 장치에서 생성된 데이터(예: 사용자 상호작용의 결과)는 서버에서 클라이언트 장치로부터 수신할 수 있다(예를 들어, 클라이언트 컴퓨팅 장치(140) 또는 애플리케이션 개발자 장치(160) 또는 제3자 디바이스(162)로부터 데이터 처리 시스템(102)에 의해 수신됨).
도면에서 동작은 특정 순서로 도시되어 있지만, 그러한 동작은 도시된 특정 순서 또는 순차적인 순서로 수행될 필요가 없으며, 도시된 모든 동작이 수행될 필요는 없다. 여기에 설명된 동작(액션)은 다른 순서로 수행될 수 있다.
다양한 시스템 컴포넌트의 분리가 모든 구현에서 분리를 요구하는 것은 아니며, 설명된 프로그램 컴포넌트는 단일 하드웨어 또는 소프트웨어 제품에 포함될 수 있다. 예를 들어, NLP 컴포넌트(106) 또는 직접 액션 API(108)는 단일 컴포넌트, 앱 또는 프로그램, 또는 하나 이상의 처리 회로를 갖는 논리 장치, 또는 데이터 처리 시스템(102)의 하나 이상의 서버의 일부일 수 있다.
일부 예시적인 구현을 설명했지만, 전술한 내용은 예시적인 것이며 제한적이지 않다는 것이 명백하다. 특히, 여기에 제시된 많은 예가 방법 동작 또는 시스템 요소의 특정 조합을 포함하지만, 이러한 동작 및 이러한 요소는 동일한 목적을 달성하기 위해 다른 방식으로 결합될 수 있다. 하나의 구현과 관련하여 설명된 동작, 요소 및 기능은 다른 구현 또는 구현에서 유사한 역할에서 제외되도록 의도되지 않았다.
여기에 사용된 어구 및 용어는 설명을 위한 것이며 제한하는 것으로 간주되어서는 안 된다. "포함하는," "내포하는", "갖는", "함유하는", "~에 의해 특징지어지는", "~인 점에서 특징지어지는" 및 그 변형의 사용은 이후에 나열된 아이템, 그 등가물, 추가 아이템뿐만 아니라 그 이후에 독점적으로 나열된 아이템으로 구성된 대체 구현을 포괄하는 의미이다. 일 구현에서, 여기에 설명된 시스템 및 방법은 설명된 요소, 동작 또는 컴포넌트 중 하나 이상, 또는 모두의 각각의 조합으로 구성된다.
여기에서 단수로 언급된 시스템 및 방법의 구현 또는 요소 또는 동작에 대한 임의의 참조는 이러한 요소의 복수를 포함하는 구현을 포함할 수 있으며, 여기에서 임의의 구현 또는 요소 또는 동작에 대한 복수의 참조는 단일 요소만을 포함하는 구현을 포함할 수도 있다. 단수 또는 복수 형태의 참조는 현재 개시된 시스템 또는 방법, 그 컴포넌트, 동작 또는 요소를 단일 또는 복수 구성으로 제한하도록 의도되지 않는다. 정보, 동작 또는 요소를 기반으로 하는 동작 또는 요소에 대한 참조는 동작 또는 요소가 정보, 동작 또는 요소에 적어도 부분적으로 기반하는 구현을 포함할 수 있다.
본 명세서에 개시된 임의의 구현은 임의의 다른 구현 또는 실시예와 결합될 수 있으며, "일 구현", "일부 구현", "하나의 구현" 등에 대한 언급은 반드시 상호 배타적이지 않으며 특정 기능, 구조 또는 구현과 관련하여 설명된 특성은 적어도 하나의 구현 또는 실시예에 포함될 수 있다. 본 명세서에 사용된 그러한 용어는 반드시 모두 동일한 구현을 지칭하는 것은 아니다. 임의의 구현은 여기에 개시된 양태 및 구현과 매치하는 임의의 방식으로 포괄적으로 또는 배타적으로 임의의 다른 구현과 결합될 수 있다.
"또는"에 대한 언급은 "또는"을 사용하여 설명된 임의의 용어가 단일, 하나 이상 및 설명된 모든 용어 중 임의의 것을 나타낼 수 있도록 포괄적인 것으로 해석될 수 있다. 'A'와 'B' 중 적어도 하나"에 대한 언급은 'A'만 포함하고 'B'만 포함할 수 있으며 'A'와 'B'를 모두 포함할 수 있다. "포함하는" 또는 기타 공개 용어와 함께 사용되는 이러한 참조에는 추가 아이템이 포함될 수 있다.
도면의 기술적 특징, 상세한 설명 또는 청구범위 뒤에 참조 부호가 있는 경우 도면, 상세한 설명 및 청구범위의 명료성을 높이기 위해 참조 부호가 포함되었다. 따라서 참조 기호나 참조 부호의 부재는 청구 요소의 범위를 제한하는 효과가 없다. 여기에 설명된 시스템 및 방법은 그 특성을 벗어나지 않고 다른 특정 형태로 구현될 수 있다. 전술한 구현은 설명된 시스템 및 방법을 제한하는 것이 아니라 예시적이다. 따라서, 본 명세서에 기재된 시스템 및 방법의 범위는 전술한 설명보다는 첨부된 청구범위에 의해 표시되며, 청구범위의 등가의 의미 및 범위 내에 있는 변경이 여기에 포함된다.

Claims (20)

  1. 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템으로서,
    적어도 하나의 요청 관리 컴포넌트, 적어도 하나의 링크 관리 컴포넌트, 적어도 하나의 요청 검증 컴포넌트, 적어도 하나의 프로세서, 및 메모리를 포함하는 데이터 처리 시스템을 포함하며, 상기 데이터 처리 시스템은,
    애플리케이션 개발자 컴퓨팅 장치로부터 적어도 하나의 요청 관리 컴포넌트에 의해, 음성 기반 소프트웨어 애플리케이션을 생성하기 위한 요청을 수신하고 -상기 요청은 음성 기반 소프트웨어 애플리케이션에 의해 제공되는 서비스와 연관된 URL(Uniform Resource Locator) 및 상기 URL에 대응하는 식별자를 포함함-;
    복수의 웹 페이지의 인덱스로부터 적어도 하나의 링크 관리 컴포넌트에 의해, 상기 URL을 타겟으로 포함하는 복수의 HTTP(Hypertext Transfer Protocol) 링크를 식별하고 -각 링크는 각각의 문자열을 포함함-;
    상기 URL에 대응하는 식별자에 대한 참조(reference)를 포함하는 각각의 문자열을 갖는 복수의 링크의 서브세트를 결정하기 위해 복수의 링크의 각 링크의 각각의 문자열을 파싱하고;
    복수의 링크의 서브세트를 임계치와 비교하여 매치 레벨(match level)을 결정하고;
    적어도 하나의 요청 검증 컴포넌트에 의해, 상기 매치 레벨에 기초하여 상기 요청의 검증 상태를 결정하고;
    상기 요청의 검증 상태가 상기 요청이 검증되었음을 나타내는 것으로 결정하는 것에 응답하여, 음성 기반 소프트웨어 애플리케이션에 트리거 키워드를 할당하고;
    상기 트리거 키워드에 대응하는 오디오 입력을 모바일 컴퓨팅 장치로부터 수신하고; 그리고
    상기 트리거 키워드에 대응하는 오디오 입력을 수신하는 것에 응답하여, 상기 음성 기반 소프트웨어 애플리케이션이 상기 모바일 컴퓨팅 장치에서 실행되게 하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  2. 제1항에 있어서, 상기 데이터 처리 시스템은,
    상기 요청에 포함된 식별자에 기초하여 적어도 하나의 대체 식별자를 결정하고; 그리고
    각각의 문자열이 상기 대체 식별자에 대한 참조를 포함하고 상기 식별자에 대한 참조를 포함하지 않는 적어도 하나의 링크를 포함하도록 상기 복수의 링크의 서브세트를 결정하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  3. 제1항에 있어서, 상기 데이터 처리 시스템은,
    제1 백분율에 대응하도록 상기 임계치를 결정하고;
    상기 서브세트에 포함된 복수의 링크의 일부(fraction)를 포함하는 제2 백분율을 결정하고; 그리고
    상기 제2 백분율을 상기 제1 백분율과 비교하여 상기 매치 레벨을 결정하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  4. 제1항에 있어서, 상기 데이터 처리 시스템은 복수의 링크에 포함된 링크의 수에 기초하여 상기 임계치에 대한 값을 결정하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  5. 제1항에 있어서, 상기 데이터 처리 시스템은 자연어 프로세싱을 사용하여 복수의 링크의 각 링크의 각각의 문자열을 파싱하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  6. 제1항에 있어서, 상기 데이터 처리 시스템은,
    애플리케이션 개발자 컴퓨팅 장치로부터 수신된 상기 요청과 연관된 위험 레벨을 결정하고; 그리고
    상기 위험 레벨에 기초하여 상기 임계치에 대한 값을 결정하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  7. 제1항에 있어서, 상기 데이터 처리 시스템은,
    상기 음성 기반 소프트웨어 애플리케이션의 유형을 결정하고;
    상기 음성 기반 소프트웨어 애플리케이션의 유형과 연관된 위험 레벨을 결정하고; 그리고
    상기 위험 레벨에 기초하여 임계치에 대한 값을 결정하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  8. 제1항에 있어서, 상기 데이터 처리 시스템은,
    상기 URL을 타겟으로 포함하는 복수의 링크에 대한 요청을 프록시 컴퓨팅 장치에 전송하고; 그리고
    상기 요청에 응답하여 상기 프록시 컴퓨팅 장치로부터 복수의 링크를 수신하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  9. 제1항에 있어서, 상기 데이터 처리 시스템은,
    상기 URL을 타겟으로 포함하는 복수의 링크에 대한 요청을 포함하는 RPC(remote procedure call)를 서버로 전송하고; 그리고
    상기 RPC에 응답하는 서버로부터 상기 복수의 링크를 수신하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  10. 제1항에 있어서, 상기 데이터 처리 시스템은,
    애플리케이션 개발자 컴퓨팅 장치로부터 수신된 상기 요청에 포함된 URL에 대응하는 최상위 도메인을 결정하고;
    상기 최상위 도메인과 연관된 하나 이상의 서브도메인을 식별하고; 그리고
    상기 서브도메인에 대응하는 URL을 타겟으로 포함하는 적어도 하나의 링크를 포함하도록 상기 복수의 링크를 식별하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  11. 제1항에 있어서, 상기 데이터 처리 시스템은,
    상기 검증 상태가 상기 요청이 검증되었음을 나타낸다는 결정에 응답하여, 상기 음성 기반 소프트웨어 애플리케이션의 적어도 일부를 생성하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  12. 제1항에 있어서, 상기 데이터 처리 시스템은,
    상기 요청의 검증 상태의 통지를 상기 애플리케이션 개발자 컴퓨팅 장치에 전송하여 상기 통지가 상기 애플리케이션 개발자 컴퓨팅 장치 상에 디스플레이되게 하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  13. 제1항에 있어서, 상기 데이터 처리 시스템은,
    제2 애플리케이션 개발자 컴퓨팅 장치로부터, 제2 음성 기반 소프트웨어 애플리케이션을 생성하기 위한 제2 요청을 수신하고 -상기 제2 요청은 상기 제2 음성 기반 소프트웨어 애플리케이션에 의해 제공되는 제2 서비스와 연관된 제2 URL 및 상기 제2 URL에 대응하는 제2 식별자를 포함함-;
    복수의 웹 페이지의 인덱스로부터, 타겟으로서 제2 URL을 포함하는 제2 복수의 HTTP 링크를 식별하고 -복수의 제2 링크의 각 링크는 각각의 문자열을 포함함-;
    제2 URL에 대응하는 제2 식별자에 대한 참조를 포함하는 각각의 문자열을 갖는 복수의 제2 링크의 서브세트를 결정하기 위해 복수의 제2 링크의 각 링크의 각각의 문자열을 파싱하고;
    복수의 제2 링크의 서브세트를 제2 임계치와 비교하여 제2 매치 레벨을 결정하고;
    상기 제2 매치 레벨에 기초하여 제2 요청의 검증 상태를 결정하고; 그리고
    상기 제2 요청이 검증되지 않았음을 상기 제2 요청의 검증 상태가 나타내는 것으로 결정하는 것에 응답하여, 제2 트리거 키워드가 상기 제2 음성 기반 소프트웨어 애플리케이션에 할당되는 것을 방지하도록 하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하기 위한 시스템.
  14. 음향 기반 디지털 어시스턴트 애플리케이션에서 키워드를 검증하는 방법으로서,
    적어도 하나의 요청 관리 컴포넌트, 적어도 하나의 링크 관리 컴포넌트, 적어도 하나의 요청 검증 컴포넌트, 적어도 하나의 프로세서, 및 메모리를 포함하는 데이터 처리 시스템에 의해, 애플리케이션 개발자 컴퓨팅 장치로부터, 음성 기반 소프트웨어 애플리케이션을 생성하도록 하는 요청을 수신하는 단계 -상기 요청은 음성 기반 소프트웨어 애플리케이션에 의해 제공되는 서비스와 연관된 URL(Uniform Resource Locator) 및 상기 URL에 대응하는 식별자를 포함함-;
    상기 데이터 처리 시스템의 적어도 하나의 링크 관리 컴포넌트에 의해, 복수의 웹 페이지의 인덱스로부터, 상기 URL을 타겟으로 포함하는 복수의 HTTP(Hypertext Transfer Protocol) 링크를 식별하는 단계 -각 링크는 각각의 문자열을 포함함-;
    상기 데이터 처리 시스템에 의해, 상기 URL에 대응하는 식별자에 대한 참조를 포함하는 각각의 문자열을 갖는 복수의 링크의 서브세트를 결정하도록 복수의 링크의 각각의 링크의 각각의 문자열을 파싱하는 단계;
    상기 데이터 처리 시스템에 의해, 복수의 링크의 서브세트를 임계치와 비교하여 매치 레벨을 결정하는 단계;
    상기 데이터 처리 시스템의 적어도 하나의 요청 검증 컴포넌트에 의해, 상기 매치 레벨에 기초하여 상기 요청의 검증 상태를 결정하는 단계;
    상기 데이터 처리 시스템에 의해, 상기 요청이 검증되었음을 상기 요청의 검증 상태가 나타내는 것으로 결정하는 것에 응답하여, 음성 기반 소프트웨어 애플리케이션에 트리거 키워드를 할당하는 단계;
    상기 데이터 처리 시스템에 의해, 모바일 컴퓨팅 장치로부터, 상기 트리거 키워드에 대응하는 오디오 입력을 수신하는 단계; 그리고
    상기 데이터 처리 시스템에 의해, 상기 트리거 키워드에 대응하는 오디오 입력을 수신하는 것에 응답하여, 상기 음성 기반 소프트웨어 애플리케이션이 모바일 컴퓨팅 장치 상에서 실행되게 하는 단계를 포함하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 키워드를 검증하는 방법.
  15. 제14항에 있어서, 상기 방법은,
    상기 데이터 처리 시스템에 의해, 상기 요청에 포함된 식별자에 기초하여 적어도 하나의 대체 식별자를 결정하는 단계; 그리고
    상기 데이터 처리 시스템에 의해, 각각의 문자열이 상기 대체 식별자에 대한 참조를 포함하고 그리고 상기 식별자에 대한 참조를 포함하지 않는 적어도 하나의 링크를 포함하도록 복수의 링크의 서브세트를 결정하는 단계를 포함하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 키워드를 검증하는 방법.
  16. 제14항에 있어서, 상기 방법은,
    상기 데이터 처리 시스템에 의해, 제1 백분율에 대응하는 임계치를 결정하는 단계;
    상기 데이터 처리 시스템에 의해, 상기 서브세트에 포함된 복수의 링크의 일부(fraction)를 포함하는 제2 백분율을 결정하는 단계; 그리고
    상기 데이터 처리 시스템에 의해, 상기 제2 백분율을 상기 제1 백분율과 비교하여 매치 레벨을 결정하는 단계를 포함하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 키워드를 검증하는 방법.
  17. 제14항에 있어서, 상기 방법은,
    상기 데이터 처리 시스템에 의해, 복수의 링크에 포함된 링크의 수에 기초하여 임계치에 대한 값을 결정하는 단계를 포함하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 키워드를 검증하는 방법.
  18. 제14항에 있어서, 상기 방법은,
    상기 데이터 처리 시스템에 의해, 자연어 프로세싱을 사용하여 복수의 링크의 각 링크의 각각의 문자열을 파싱하는 단계를 포함하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 키워드를 검증하는 방법.
  19. 제14항에 있어서, 상기 방법은,
    상기 데이터 처리 시스템에 의해, 애플리케이션 개발자 컴퓨팅 장치로부터 수신된 요청과 연관된 위험 레벨을 결정하는 단계; 그리고
    상기 데이터 처리 시스템에 의해, 상기 위험 레벨에 기초하여 임계치에 대한 값을 결정하는 단계를 포함하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 키워드를 검증하는 방법.
  20. 제14항에 있어서, 상기 방법은,
    상기 데이터 처리 시스템에 의해, 상기 음성 기반 소프트웨어 애플리케이션의 유형을 결정하는 단계;
    상기 데이터 처리 시스템에 의해, 상기 음성 기반 소프트웨어 애플리케이션의 유형과 연관된 위험 레벨을 결정하는 단계; 그리고
    상기 데이터 처리 시스템에 의해, 상기 위험 레벨에 기초하여 임계치에 대한 값을 결정하는 단계를 포함하는 것을 특징으로 하는 음향 기반 디지털 어시스턴트 애플리케이션에서 키워드를 검증하는 방법.
KR1020227000057A 2019-07-17 2019-07-17 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 시스템 및 방법 KR102664371B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2019/042263 WO2021010997A1 (en) 2019-07-17 2019-07-17 Systems and methods to verify trigger keywords in acoustic-based digital assistant applications

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020247014848A Division KR20240067283A (ko) 2019-07-17 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20220017464A KR20220017464A (ko) 2022-02-11
KR102664371B1 true KR102664371B1 (ko) 2024-05-13

Family

ID=67515144

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227000057A KR102664371B1 (ko) 2019-07-17 2019-07-17 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 시스템 및 방법

Country Status (5)

Country Link
US (3) US11217243B2 (ko)
EP (2) EP3785396B1 (ko)
KR (1) KR102664371B1 (ko)
CN (1) CN112534771B (ko)
WO (1) WO2021010997A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3785396B1 (en) * 2019-07-17 2022-09-21 Google LLC Systems and methods to verify trigger keywords in acoustic-based digital assistant applications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160294867A1 (en) 2014-02-14 2016-10-06 Tencent Technology (Shenzhen) Company Limited Method and system for security protection of account information
US20170289338A1 (en) 2016-03-31 2017-10-05 Microsoft Technology Licensing, Llc Enabling stateful dynamic links in mobile applications

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6205204B1 (en) * 1996-06-28 2001-03-20 Distributed Software Development, Inc. System and method for identifying an unidentified person using an ambiguity-resolution criterion
US7006605B1 (en) * 1996-06-28 2006-02-28 Ochopee Big Cypress Llc Authenticating a caller before providing the caller with access to one or more secured resources
US7376740B1 (en) * 2000-06-13 2008-05-20 Microsoft Corporation Phone application state management mechanism
US7266513B2 (en) * 2001-03-14 2007-09-04 United Parcel Service Of America, Inc. System and method for initiating returns over a network
US7233655B2 (en) * 2001-10-03 2007-06-19 Accenture Global Services Gmbh Multi-modal callback
US20040064442A1 (en) * 2002-09-27 2004-04-01 Popovitch Steven Gregory Incremental search engine
US7769820B1 (en) * 2005-06-30 2010-08-03 Voltage Security, Inc. Universal resource locator verification services using web site attributes
US20080255835A1 (en) * 2007-04-10 2008-10-16 Microsoft Corporation User directed adaptation of spoken language grammer
US10972530B2 (en) * 2016-12-30 2021-04-06 Google Llc Audio-based data structure generation
US11093692B2 (en) * 2011-11-14 2021-08-17 Google Llc Extracting audiovisual features from digital components
US9070301B2 (en) * 2012-06-04 2015-06-30 At&T Intellectual Property I, L.P. System and method for improved human learning through multi-sensory stimulus
DE212014000045U1 (de) * 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US20140337030A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Adaptive audio frame processing for keyword detection
US20170187866A1 (en) * 2015-10-17 2017-06-29 Eric Qing Li Automatic Volume Control Based on Context and Location
US20150011195A1 (en) * 2013-07-03 2015-01-08 Eric Li Automatic volume control based on context and location
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US20180322536A1 (en) * 2014-01-14 2018-11-08 Google Inc. Resource utilization based cross device transmissions
US20210234832A1 (en) * 2014-05-12 2021-07-29 Tocmail Inc Computer Security System and Method Based on User-Intended Final Destination
US9632748B2 (en) * 2014-06-24 2017-04-25 Google Inc. Device designation for audio input monitoring
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US10074360B2 (en) * 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9823922B1 (en) * 2014-12-22 2017-11-21 Amazon Technologies, Inc. Source code mapping through context specific key word indexes and fingerprinting
US9930098B2 (en) * 2015-01-23 2018-03-27 Hughes Network Systems, Llc Method and system for ISP network performance monitoring and fault detection
US9887995B2 (en) * 2015-03-20 2018-02-06 Cyberdeadbolt Inc. Locking applications and devices using secure out-of-band channels
EP3323056A1 (en) * 2015-07-15 2018-05-23 Chappy, Inc. Systems and methods for screenshot linking
US9959887B2 (en) * 2016-03-08 2018-05-01 International Business Machines Corporation Multi-pass speech activity detection strategy to improve automatic speech recognition
US10104152B2 (en) * 2016-04-28 2018-10-16 TeamMate Licensing B.V. Inter-application communication and integration broker
US10313348B2 (en) * 2016-09-19 2019-06-04 Fortinet, Inc. Document classification by a hybrid classifier
CN107871501A (zh) * 2016-09-27 2018-04-03 Fmr有限责任公司 使用智能语音识别的自动化软件执行方法
US20180210701A1 (en) * 2017-01-25 2018-07-26 Essential Products, Inc. Keyword driven voice interface
DE112017000039T5 (de) * 2017-02-15 2018-10-25 Google Llc Erzeugen von Deeplinks für Anwendungen auf Basis von mehrstufigen Verweisdaten
US10360916B2 (en) * 2017-02-22 2019-07-23 Plantronics, Inc. Enhanced voiceprint authentication
US10362047B2 (en) * 2017-05-08 2019-07-23 KnowBe4, Inc. Systems and methods for providing user interfaces based on actions associated with untrusted emails
US10403299B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
US10650844B2 (en) * 2018-01-18 2020-05-12 Wipro Limited Method and response recommendation system for recommending a response for a voice-based user input
US10782981B2 (en) * 2018-01-26 2020-09-22 Avaya Inc. Systems and methods of dynamic port assignment
US11386412B1 (en) * 2018-04-12 2022-07-12 Wells Fargo Bank, N.A. Authentication circle management
US10928918B2 (en) * 2018-05-07 2021-02-23 Apple Inc. Raise to speak
FI20185605A1 (en) * 2018-06-29 2019-12-30 Crf Box Oy Continuous verification of user identity in clinical trials via audio-based user interface
US10861444B2 (en) * 2018-09-24 2020-12-08 Rovi Guides, Inc. Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11049496B2 (en) * 2018-11-29 2021-06-29 Microsoft Technology Licensing, Llc Audio pipeline for simultaneous keyword spotting, transcription, and real time communications
US11468071B2 (en) * 2018-11-30 2022-10-11 Rovi Guides, Inc. Voice query refinement to embed context in a voice query
US11790153B2 (en) * 2018-12-20 2023-10-17 Atlassian Pty Ltd. Systems and methods for creating and managing smart hyperlinks
US11200894B2 (en) * 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11265297B2 (en) * 2019-07-03 2022-03-01 Microsoft Technology Licensing, Llc Securely sharing context between web frames
EP3785396B1 (en) * 2019-07-17 2022-09-21 Google LLC Systems and methods to verify trigger keywords in acoustic-based digital assistant applications
DE102019218808B3 (de) * 2019-12-03 2021-03-11 Sivantos Pte. Ltd. Verfahren zum Trainieren eines Hörsituationen-Klassifikators für ein Hörgerät

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160294867A1 (en) 2014-02-14 2016-10-06 Tencent Technology (Shenzhen) Company Limited Method and system for security protection of account information
US20170289338A1 (en) 2016-03-31 2017-10-05 Microsoft Technology Licensing, Llc Enabling stateful dynamic links in mobile applications

Also Published As

Publication number Publication date
CN112534771A (zh) 2021-03-19
EP3785396A1 (en) 2021-03-03
US11869504B2 (en) 2024-01-09
US11217243B2 (en) 2022-01-04
WO2021010997A1 (en) 2021-01-21
US20210335353A1 (en) 2021-10-28
CN112534771B (zh) 2024-04-19
EP3785396B1 (en) 2022-09-21
EP4134842A1 (en) 2023-02-15
US20240144928A1 (en) 2024-05-02
US20220122608A1 (en) 2022-04-21
KR20220017464A (ko) 2022-02-11

Similar Documents

Publication Publication Date Title
US11829435B2 (en) Secure digital assistant integration in web pages
EP3762889B1 (en) Secure digital assistant integration in web pages
US11599336B2 (en) Generating and updating voice-based software applications using application templates
KR20220062360A (ko) 동적으로 업데이트되는 자연어 처리를 통한 애플리케이션과의 인터페이스
US20220308987A1 (en) Debugging applications for delivery via an application delivery server
US20240144928A1 (en) Systems and methods to verify trigger keywords in acoustic-based digital assistant applications
US11385990B2 (en) Debugging applications for delivery via an application delivery server
KR20240067283A (ko) 음향 기반 디지털 어시스턴트 애플리케이션에서 트리거 키워드를 검증하는 시스템 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent