KR20210097842A

KR20210097842A - 미등록 리소스를 사용한 오디오-기반의 네트워크 세션 수립

Info

Publication number: KR20210097842A
Application number: KR1020217024448A
Authority: KR
Inventors: 바룬 손다라라얀; 스리람 바르가브 카르나티
Original assignee: 구글 엘엘씨
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2021-08-09
Also published as: EP4060476A3; KR102287862B1; WO2018231209A1; DE212017000068U1; KR20190109498A; US20180358022A1; US11475900B2; US20200175992A1; EP4060476A2; CN109392309B; CN109392309A; CN114491226A; KR102421669B1; JP6968897B2; US10573322B2; EP3625668A1; JP2020522031A; EP3625668B1

Abstract

본 발명은 일반적으로 디지털 컴포넌트와 같은 온보딩(onboarding) 네트워크 리소스의 확장성을 음성 기반 네트워크로 증가시키는 것에 관한 것이다. 시스템은 컴퓨팅 디바이스상의 음성 또는 음성 입력 및 출력 인터페이스를 사용하여 디지털 컴포넌트들을 탐색 및 그 디지털 컴포넌트들과의 상호 작용을 가능하게 한다. 시스템은 입력 오디오 신호를 수신 및 처리하여 디지털 컴포넌트를 식별할 수 있다. 시스템은 입력 및 출력 인터페이스를 통해 이전에 미등록된 디지털 컴포넌트와 음성-기반의 상호 작용을 가능하게 한다.

Description

미등록 리소스를 사용한 오디오-기반의 네트워크 세션 수립{ESTABLISHMENT OF AUDIO-BASED NETWORK SESSIONS WITH NON-REGISTERED RESOURCES}

컴퓨터 시스템은 그 컴퓨터 시스템과 상호 작용하도록 구성된 네트워크 리소스들과 상호 작용할 수 있다. 네트워크 리소스와 상호 작용하기 위해 각 네트워크 리소스마다 인터페이스가 설계될 수 있다. 각 네트워크 리소스에 대한 맞춤형 인터페이스를 효율적으로 만들 수 없으며, 대역폭, 시간 또는 전력과 같은 컴퓨팅 리소스가 중복되고 낭비될 수 있기 때문에 특정 컴퓨터 시스템의 확장이 제한될 수 있다. 따라서, 특정 컴퓨터 시스템에 대한 확장은 네트워크 리소스에 대한 현재의 온보딩(onboarding) 기술을 사용하여 확장할 수 없다.

적어도 하나의 양태는 자연어 처리 컴포넌트를 포함하는 음성 활성화 데이터 패킷 기반의 컴퓨터 네트워크 환경에서 디지털 컴포넌트를 검색하는 시스템에 관한 것이다. 자연어 처리 컴포넌트는 데이터 처리 시스템에 의해 실행될 수 있다. 자연어 처리 컴포넌트는 데이터 처리 시스템의 인터페이스를 통해, 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호를 포함할 수 있는 데이터 패킷을 수신할 수 있다. 자연어 처리 컴포넌트는 입력 오디오 신호를 파싱하여 요청, 컨텐츠 제공자 및 그 요청에 대응하는 트리거 키워드를 식별할 수 있다. 시스템은 트리거 키워드에 기초하여, 액션 데이터 구조를 생성할 수 있는 다이렉트 액션 애플리케이션 프로그래밍 인터페이스를 포함할 수 있다. 액션 데이터 구조는 요청 및 식별된 컨텐츠 제공자에 응답하여 생성될 수 있다. 시스템은 탐색 컴포넌트를 포함할 수 있다. 탐색 컴포넌트는 식별된 컨텐츠 제공자와의 세션을 설정할 수 있다. 탐색 컴포넌트는 그 세션을 통해, 컨텐츠 제공자로부터 수신된 디지털 컴포넌트를 렌더링할 수 있다. 탐색 컴포넌트는 컨텐츠 제공자와 관련된 상호 작용 모델을 선택할 수 있다. 탐색 컴포넌트는 상호 작용 모델 및 액션 데이터 구조에 기초하여 데이터 어레이를 생성할 수 있다. 시스템은 데이터 처리 시스템의 인터페이스를 통해, 그 데이터 어레이를 원격 데이터 처리 시스템으로 전송할 수 있다.

적어도 하나의 양태는 음성 활성화 데이터 패킷 기반의 컴퓨터 네트워크 환경에서 디지털 컴포넌트를 검색하고 디지털 컴포넌트와 상호 작용하는 방법에 관한 것이다. 상기 방법은 데이터 처리 시스템에 의해 실행되는 자연어 처리 컴포넌트에 의해 그 데이터 처리 시스템의 인터페이스를 통해, 컴퓨팅 디바이스의 센서에 의해 검출된 입력 오디오 신호를 포함할 수 있는 데이터 패킷을 수신하는 단계를 포함할 수 있다. 상기 방법은 자연어 처리 컴포넌트에 의해, 요청을, 컨텐츠 제공자 및 그 요청에 대응하는 트리거 키워드를 식별하기 위해 입력 오디오 신호를 파싱하는 단계를 포함할 수 있다. 상기 방법은 다이렉트 액션 애플리케이션 프로그래밍 인터페이스에 의해, 트리거 키워드에 기초하여, 액션 데이터 구조를 생성하는 단계를 포함할 수 있다. 액션 데이터 구조는 요청 및 컨텐츠 제공자에 응답하여 생성될 수 있다. 상기 방법은 탐색 컴포넌트에 의해, 컨텐츠 제공자와의 세션을 수립하는 단계를 포함할 수 있다. 상기 방법은 탐색 컴포넌트에 의해, 그 세션을 통해, 원격 데이터 처리 시스템으로부터 수신된 디지털 컴포넌트를 렌더링하는 단계를 포함할 수 있다. 상기 방법은 탐색 컴포넌트에 의해, 원격 데이터 처리 시스템과 관련된 상호 작용 모델을 선택하는 단계를 포함할 수 있다. 상기 방법은 탐색 컴포넌트에 의해, 상호 작용 모델 및 액션 데이터 구조에 기초하여 데이터 어레이를 생성하는 단계를 포함할 수 있다. 상기 방법은 데이터 처리 시스템에 의해 그리고 데이터 처리 시스템의 인터페이스를 통해, 데이터 어레이를 원격 데이터 처리 시스템으로 전송하는 단계를 포함할 수 있다.

전술한 일반적인 설명과 도면 설명 및 상세한 설명은 예시적이고 설명적인 것이며 청구된 본 발명의 추가 설명을 제공하기 위한 것이다. 다른 목적, 장점 및 신규 특징은 다음의 도면의 간단한 설명과 상세한 설명으로부터 당업자에게 명백할 것이다.

첨부된 도면은 실제 크기로 도시된 것이 아니다. 다양한 도면에서 유사 참조 번호 및 명칭은 유사한 요소(elements)를 나타낸다. 명확성을 위해, 모든 도면에 모든 컴포넌트가 표시되는 것은 아니다.
도 1은 컴퓨터 네트워크를 통해 디지털 컴포넌트들 선택하고 디지털 컴포넌트들과 상호 작용하기 위한 예시적인 시스템의 블록도를 도시한다.
도 2는 도 1에 도시된 시스템에서 디지털 컴포넌트들을 검색하는 예시적인 방법의 블록도를 도시한다.
도 3은 도 1에 도시된 시스템을 통한 예시적인 데이터 흐름의 블록도를 도시한다.
도 4는 도 1에 도시된 시스템에서 사용하기 위한 예시적인 컴퓨터 시스템의 블록도를 도시한다.

이하에서는 오디오 기반의 컴퓨터 네트워크에서 디지털 컴포넌트를 검색하고 상호 작용하는 방법, 장치 및 시스템과 관련된 다양한 개념과 구현예의 보다 상세한 설명이다. 위에서 도입되고 이하에서 더욱 상세히 논의되는 다양한 개념은 그 기술되는 개념이 임의의 특정 구현 방식으로 제한되지 않기 때문에 임의의 다수의 방식으로 구현될 수 있다.

본 발명은 일반적으로 디지털 컴포넌트와 같은 온보딩(onboarding) 네트워크 리소스들의 확장성을 음성 또는 이미지 기반 네트워크로 증가시키는 시스템 및 방법에 관한 것이다. 시스템은 컴퓨팅 디바이스상의 음성(voice), 이미지, 또는 음성 입력(speech input) 및 출력 인터페이스들을 사용하여 웹 페이지, 그의 일부 또는 다른 온라인 문서와 같은 디지털 컴포넌트를 탐색하고 그 디지털 컴포넌트와 상호 작용할 수 있는 데이터 처리 시스템을 포함할 수 있다. 시스템은 음성 입력(본 명세서에서 입력 오디오 신호로도 지칭됨)을 수신하고 처리하여 디지털 컴포넌트를 식별할 수 있다. 시스템은 디지털 컴포넌트를 제공하는 컨텐츠 제공자를 식별할 수 있다. 음성 입력(또는 이미지 입력과 같은 다른 비-텍스트 입력)은 디지털 컴포넌트에서 액세스될 수 있는 정의된 유형의 적어도 하나의 리소스와 관련된 구두 명령을 포함할 수 있다. 리소스는 식별된 디지털 컴포넌트, 또는 디지털 컴포넌트에 포함되거나 디지털 컴포넌트에 의해 식별된 특정 아이템 또는 웹 페이지를 통해 완료되는 액션일 수 있거나, 액션을 포함하거나 액션에 대응할 수 있다. 시스템은 디지털 컴포넌트를 호스팅하는 컨텐츠 제공자와의 세션을 생성할 수 있다. 시스템은 컨텐츠 제공자로부터 수신된 디지털 컴포넌트를 렌더링할 수 있다. 시스템은 사용자 인터페이스없이 디지털 컴포넌트를 헤드리스(headless) 렌더링할 수 있다. 시스템은 상호 작용 모델을 사용하여, 상기 렌더링된 디지털 컴포넌트를 파싱하여 그 상호 작용 모델을 사용하여 리소스을 탐색(navigate)할 수 있다. 시스템은 제1 모델 유형 및 제2 모델 유형으로부터 상호 작용 모델을 선택할 수 있다. 제1 모델 유형은 음성 입력에서 식별된 리소스과 동일한 유형의 리소스을 갖는 웹 사이트 모음 (collection)에 기초한 제1 트레이닝 데이터 세트를 통합할 수 있는 일반 모델 (generic model)이거나 이를 포함할 수 있다. 제2 모델 유형은 디지털 컴포넌트의 리소스들에 특정된 제2 트레이닝 데이터 세트를 통합하는 특정 모델이거나 이를 포함할 수 있다. 두 모델 세트는 각각의 리소스에 대한 액세스를 결정하거나 디지털 컴포넌트를 탐색하기 위한 데이터를 포함할 수 있다. 시스템은 각각의 리소스에 액세스하기 위해 상기 수신된 명령에 기초하여 하나 이상의 후속 동작을 위해 상기 관련 리소스들과 관련된 정보를 컴퓨팅 디바이스에 제공할 수 있다. 시스템은 또한 리소스 또는 추가 리소스에 액세스하기 위해 디지털 컴포넌트를 탐색할 때 이루어진 하나 이상의 결정에 기초하여 상호 작용 모델을 업데이트할 수 있다.

시스템은 디지털 컴포넌트에 데이터를 입력할 수 있다. 데이터는 사용자에 의해 제공될 수 있고 컴퓨팅 디바이스 또는 시스템상의 보안 저장 지갑에 저장될 수 있다. 데이터는 디지털 컴포넌트와의 세션을 생성하는 동안 자동으로 또는 하나 이상의 후속 동작을 위해 생성된 세션 동안 필요할 때 시스템에 제공될 수 있다.

시스템은 복수의 상이한 디지털 컴포넌트상에서 개별 유형의 리소스에 액세스하는데 공통적인 하나 이상의 용어, 레이아웃, 카테고리 및 하이퍼 링크에 관한 정보를 획득 및 저장함으로써 일반 모델들을 생성할 수 있다. 시스템은 음성 입력에서 식별된 디지털 컴포넌트 각각에 대한 리소스의 용어, 레이아웃, 메뉴, 카테고리 및 하이퍼 링크 중 하나 이상에 관한 정보를 획득 및 저장함으로써 특정 모델을 생성할 수 있다.

다른 네트워크 리소스가 네트워크 리소스와 상호 작용할 수 있도록 네트워크 리소스를 음성 활성화 네트워크로 온보딩하는 것은 각 리소스마다 고유한 인터페이스를 생성할 필요가 있을 수 있기 때문에 기술적으로 어려울 수 있다. 예를 들어, 리소스 소유자는 음성 기반 컴퓨팅 디바이스의 제공자가 리소스와 상호 작용할 수 있도록 하는 API(응용 프로그램 인터페이스)를 생성해야 할 수도 있다. 음성 기반 컴퓨팅 디바이스의 제공자는 또한 컴퓨팅 디바이스가 제공된 API를 통해 리소스와 상호 작용할 수 있게하는 프로그램을 생성할 필요가 있을 수 있다. 음성 기반 컴퓨팅 디바이스의 제공자는 또한 컴퓨팅 디바이스가 그 제공된 API를 통해 리소스와 상호 작용할 수 있게 하는 프로그램을 생성할 필요가 있을 수 있다. 음성 기반 컴퓨팅 디바이스의 제공자는 리소스 소유자가 자신의 디지털 컴포넌트에 통합할 수 있는 API를 제공할 수 있다. 이 온보딩 프로세스는 시간이 많이 걸리고 계산적으로 비효율적일 수 있으며 두 당사자의 협력이 필요할 수 있다.

온보딩 프로세스는 리소스와의 거래을 수행하고, 리소스의 보안부(secure part)에 대한 액세스를 획득하고, 민감한 정보를 교환하기 위해 필요할 수 있다. 거래을 수행하고 데이터를 교환하기 위해 음성 입력 인터페이스로 이들 리소스와 상호 작용하는 기술은, 컴퓨팅 디바이스가 특정 사용자 인터페이스 모듈에 발행된 음성 커맨드를 사용하여 리소스를 탐색할 수 있도록 음성 기반 컴퓨팅 디바이스의 리소스 인터페이스에 대한 긴밀한 통합이 필요할 수 있다. 인터페이스 모듈과 개별 리소스 사이에 사전 정의될 필요가 있는 이러한 리소스 특정 통합(resource specific integration)은 컴퓨팅 디바이스의 사용자에게 안전하고 빠르며 원활한 경험을 제공하기 위해 필요할 수 있다. 이는 인터페이스 모듈이 (예를 들어, 컴퓨팅 디바이스상의 보안 지갑으로부터) 보안 데이터를 획득할 수 있는 방법의 사전 보안 구성뿐만 아니라, 인터페이스 모듈이 리소스 입력, 컴포넌트 또는 다른 상호 작용 오브젝트의 레이아웃을 알 수 있도록 특정 리소스과의 사전 통합이 필요할 수 있기 때문이다.

따라서, 음성 기반 컴퓨팅 디바이스와 리소스 사이의 긴밀한 통합을 설정하기 위해 온보딩 프로세스를 거치지 않은 리소스와의 인터페이스는 불가능할 수 있다. 음성 기반 컴퓨팅 디바이스를 사용하여 리소스와의 액션의 완료는 각각 및 모든 리소스와의 통합 없이는 가능하지 않을 수 있다.

게다가, 음성(또는 이미지 또는 비디오) 기반 컴퓨팅 디바이스는 다수의 음성 인식 기반 인터페이스 모듈을 사용할 수 있다. 특정 인터페이스 모듈이 사용하는 모듈에 따라, 각각의 개별 인터페이스 모듈과의 기정의된 통합이 음성 기반 컴퓨팅 디바이스가 상호 작용할 수 있는 각각의 리소스에 대해 필요할 수 있다.

리소스와의 탐색 및 상호 작용을 가능하게 하기 위해 음성 기반 컴퓨팅 디바이스와의 이러한 통합을 제공하는 기술은, 각 리소스에 대해 매우 구체적이고 밀접한 기정의된 통합이 필요하다는 위에서 설명된 결점을 겪을 수 있다. 이러한 기술은 확장 가능하지 않을 수 있으며 모든 리소스에 적용할 수는 없다. 예를 들어, 음성 제어되는 사용자 인터페이스 모듈이 웹 사이트를 탐색할 수 있는 기능을 제공하는 웹 사이트 또는 도메인은 임의의 음성 입력 인식 모듈과 상호 작용할 수 있는 것이 아니라 하나의 유형의 인터페이스 모듈로 기능을 제한해야 할 수도 있다.

따라서, 음성 기반 컴퓨팅 디바이스가 음성(speech), 음성(voice) 또는 이미지 입력 인식 인터페이스 모듈을 사용하여 모든 리소스을 탐색하고 그들과 상호 작용할 수 있게 하는 일반적이고 확장 가능한 기술을 제공할 필요가 있다.

본 발명은 제품, 서비스 또는 다른 액션을 제공하는 모든 리소스로 동작 가능한 실시간 및 확장 가능한 기술을 가능하는 다음의 기술 단계들을 제공한다. 사용자는 "OK, 웹 사이트 Y에서 제품 X를 구하고 싶어, 가격과 가용성(availability)을 알려줘"와 같은 커맨드를 음성 기반 컴퓨팅 디바이스를 통해 개시할 수 있다. 시스템(예를 들어, 데이터 처리 시스템)은 자연어 처리를 사용하여 입력 오디오 신호를 파싱하고 해석할 수 있다. 예를 들어, 시스템은 보안 지갑을 통해 웹 사이트 Y에 대한 사용자의 크리덴셜을 획득할 수 있다. 시스템은 웹 사이트 Y와의 세션을 개시할 수 있다. 서버는 웹 사이트 Y를 헤드리스(headlessly) 렌더링할 수 있다. 그런 다음 시스템은 특정 또는 일반 상호 작용 모델 중 하나를 사용하여 웹 사이트 Y를 탐색하여 제품 X의 가격과 가용성을 얻을 수 있다. 가격 및 가용성은 컴퓨팅 디바이스상의 또는 컴퓨팅 디바이스와 관련된 변환기(transducer)(예를 들어, 스피커)를 통해 사용자에게 제시되는 출력 오디오 파일을 통해 사용자의 컴퓨팅 디바이스로 제공될 수 있다. 사용자는 시스템이 파싱할 수 있는 제2 입력 오디오 신호를 통해 구매를 확인하거나 시스템에게 추가 세부 정보를 제공할 수 있다. 이 예에서, 시스템은 사용자가 시스템과 음성 기반 컴퓨팅 디바이스 사이의 임의의 특정 통합을 요구하지 않고 웹 사이트 Y와 상호 작용할 수 있게 한다. 이 기술은 트레이닝된 상호 작용 모델을 사용하고 특정 통합없이 웹 사이트, 네트워크 리소스 또는 다른 디지털 컴포넌트와 실시간으로 상호 작용할 수 있는 방법과 시스템을 제공한다.

본 명세서에 기술된 기술은 모든 유형의 디지털 컴포넌트에 대해 일반적이고 확장 가능할 수 있고, 디지털 컴포넌트 제공자와 음성 기반 컴퓨팅 디바이스의 제공자 사이의 사전 통합 또는 조정없이 데이터 처리 시스템과 디지털 컴포넌트들의 상호 작용을 가능하게 할 수 있다 .

위의 기술적 솔루션은 서버와 웹 사이트 도메인 사이의 매핑을 설정하기 위해 개별 디지털 컴포넌트의 서버 측 헤드리스 렌더링의 기술적 특징에 의해 제공된다. 적어도 하나의 트레이닝된 상호 작용 모델을 사용하여, 시스템은 디지털 컴포넌트의 구조, 요소, 입력 요소 및 기타 컴포넌트를 식별할 수 있다. 위의 단계들은 디지털 컴포넌트와 상호 작용하기 위해 입력 오디오 신호를 처리하는 효과적인 최종 사용자 경험을 추가로 제공하기 위해 실시간으로 원활하고 자동으로 발생할 수 있다.

도 1은 컴퓨터 네트워크를 통해 디지털 컴포넌트를 선택하고 상호 작용하기 위한 예시적인 시스템(100)의 블록도를 도시한다. 시스템(100)은 컨텐츠 선택 인프라를 포함할 수 있다. 시스템(100)은 데이터 처리 시스템(102)을 포함할 수 있다. 데이터 처리 시스템(102)은 네트워크(105)를 통해 하나 이상의 컨텐츠 제공자 컴퓨팅 디바이스(106) 또는 클라이언트 컴퓨팅 디바이스들(104)과 통신할 수 있다. 네트워크(105)는 인터넷, 로컬, 광역, 메트로 또는 다른 영역 네트워크와 같은 컴퓨터 네트워크, 인트라넷, 위성 네트워크, 및 음성 또는 데이터 이동 전화 네트워크와 같은 다른 통신 네트워크 및 이들의 조합을 포함할 수 있다. 네트워크(105)는 랩탑, 데스크탑, 태블릿, 개인 휴대 정보 단말기, 스마트폰, 홈 어시스턴트 디바이스, 휴대용 컴퓨터(들) 또는 스피커와 같은 적어도 하나의 컴퓨팅 디바이스 (104)상에 제시, 출력, 렌더링 또는 디스플레이될 수 있는 웹 페이지, 웹 사이트, 도메인 이름 또는 URL과 같은 정보 리소스에 액세스할 수 있다. 예를 들어, 네트워크(105)를 통해, 컴퓨팅 디바이스(104)의 사용자는 컨텐츠 제공자 디바이스 (106)에 의해 제공된 정보 또는 데이터에 액세스할 수 있다.

데이터 처리 시스템(102)은 인터페이스(110), 자연어 처리 컴포넌트 (112) 및 세션 핸들러 컴포넌트(114)를 포함할 수 있다. 데이터 처리 시스템(102)은 또한 다이렉트 액션 애플리케이션 프로그래밍 인터페이스(116), 탐색 컴포넌트(118) 및 오디오 신호 생성 컴포넌트(122)를 포함할 수 있다. 데이터 처리 시스템(102)은 또한 파라미터(126), 정책(128), 상호 작용 모델(130) 및 템플릿 (132)이 저장된 데이터 저장소(124)를 포함할 수 있다.

네트워크(105)는 클라이언트 컴퓨팅 디바이스(104)에 의해 제시, 출력, 렌더링 또는 디스플레이될 수 있는 웹 페이지, 웹 사이트, 도메인 이름 또는 URL과 같은 정보 리소스에 액세스하기 위해 데이터 프로세싱 시스템(102)에 의해 사용될 수 있다. 컨텐츠 제공자 디바이스(106)에 의해 저장되거나 제공되는 웹 페이지, 웹 사이트 및 다른 디지털 컨텐츠는 디지털 컴포넌트 또는 컨텐츠 아이템으로 지칭될 수 있다. 네트워크(105)를 통해 클라이언트 컴퓨팅 디바이스(104)의 사용자는 컨텐츠 제공자 컴퓨팅 디바이스(106)에 의해 제공된 정보 또는 데이터(예를 들어, 컨텐츠 아이템과 같은 디지털 컴포넌트)에 액세스할 수 있다.

디지털 컴포넌트는 컴퓨팅 디바이스(104)의 디스플레이 디바이스를 통해 렌더링되거나 데이터 처리 시스템(102)에서 렌더링될 수 있다. 렌더링은 컴퓨팅 디바이스(104)의 일부이거나 일부가 아닐 수 있는 디스플레이 디바이스 상에 디지털 컴포넌트 또는 다른 컨텐츠 아이템을 디스플레이하는 것을 포함할 수 있다. 일부 구현들에서, 컴퓨팅 디바이스(104)는 디지털 컴포넌트를 렌더링하기 위한 디스플레이 디바이스를 포함하지 않는다. 예를 들어, 컴퓨팅 디바이스(104)는 컴퓨팅 디바이스(104)의 스피커를 통해 디지털 컴포넌트를 재생함으로써 디지털 컴포넌트를 단지 렌더링할 수 있다. 데이터 처리 시스템(102)은 중개자로 작용할하여, 컴퓨팅 디바이스(104)가 오디오 기반 방식으로 디지털 컴포넌트와 상호 작용할 수 있게 한다.

네트워크(105)는 임의의 유형 또는 형태의 네트워크 일 수 있으며, 점-대-점 네트워크, 브로드캐스트 네트워크, 광역 네트워크, 근거리 네트워크, 통신 네트워크, 데이터 통신 네트워크, 컴퓨터 네트워크, ATM(Asynchronous Transfer Mode) 네트워크, SONET(Synchronous Optical Network) 네트워크, SDH(Synchronous Digital Hierarchy) 네트워크, 무선 네트워크와 유선 네트워크를 포함한다. 네트워크(105)는 적외선 채널 또는 위성 밴드와 같은 무선 링크를 포함할 수 있다. 네트워크 (105)의 토폴로지는 버스, 스타(star) 또는 링 네트워크 토폴로지를 포함할 수 있다. 네트워크는 진화된 휴대 전화 프로토콜("AMPS"), 시분할 다중 액세스("TDMA"), 코드 분할 다중 액세스("CDMA"), 글로벌 이동 통신 시스템("GSM"), 일반 패킷 무선 서비스("GPRS") 또는 범용 이동 통신 시스템("UMTS")을 포함하여 모바일 디바이스들간에 통신하는데 사용되는 임의의 프로토콜 또는 프로토콜들을 사용하는 이동 전화 네트워크를 포함할 수 있다. 상이한 유형의 데이터가 상이한 프로토콜을 통해 전송되거나 동일한 유형의 데이터가 상이한 프로토콜을 통해 전송될 수 있다.

시스템(100)은 적어도 하나의 데이터 처리 시스템(102)을 포함할 수 있다. 데이터 처리 시스템(102)은 네트워크(105)를 통해, 예를 들어 컴퓨팅 디바이스(104) 또는 컨텐츠 제공자 디바이스(106)(컨텐츠 제공자(106))와 통신하기 위한 프로세서를 갖는 컴퓨팅 디바이스와 같은 적어도 하나의 논리 디바이스를 포함할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 계산 리소스, 서버, 프로세서 또는 메모리를 포함할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 적어도 하나의 데이터 센터에 위치한 복수의 계산 리소스 또는 서버를 포함할 수 있다. 데이터 처리 시스템(102)은 다수의 논리적으로 그룹화된 서버를 포함하여 분산 컴퓨팅 기술을 용이할 수 있다. 논리적 서버 그룹은 데이터 센터, 서버 팜 또는 머신 팜으로 지칭될 수 있다. 서버들은 지리적으로 분산될 수도 있다. 데이터 센터 또는 머신 팜은 단일 엔터티로 관리되거나 머신 팜은 복수의 머신 팜을 포함할 수 있다. 각 머신 팜 내의 서버들은 이기 종일 수 있으며, 하나 이상의 서버 또는 머신은 하나 이상의 유형의 운영 체제 플랫폼에 따라 작동할 수 있다.

머신 팜내의 서버들은 관련 저장 시스템과 함께 고밀도 랙(rack) 시스템에 저장될 수 있으며 기업 데이터 센터에 위치할 수 있다. 예를 들어, 이러한 방식으로 서버들을 통합하는 것은 지역화된 고성능 네트워크에 서버 및 고성능 저장 시스템을 배치함으로써 시스템 관리 효율성, 데이터 보안, 시스템의 물리적 보안 및 시스템 성능을 향상시킬 수 있다. 서버들과 저장 시스템들을 포함하여 모든 또는 일부 데이터 처리 시스템(102) 컴포넌트를 중앙 집중화하고 이를 개선된 시스템 관리 툴과 결합하면 서버 리소스를 보다 효율적으로 사용할 수 있어 전력 및 처리 요구 사항을 절약하고 대역폭 사용을 줄일 수 있다.

시스템(100)은 적어도 하나의 컨텐츠 제공자 디바이스(106)를 포함, 액세스 또는 이들과 상호 작용할 수 있다. 컨텐츠 제공자 디바이스(106)는 네트워크(105)를 통해 통신하기 위한 프로세서를 갖는 컴퓨팅 디바이스와 같은 적어도 하나의 논리 디바이스를 포함할 수 있다. 컨텐츠 제공자 디바이스(106)는 적어도 하나의 계산 리소스, 서버, 프로세서 또는 메모리를 포함할 수 있다. 예를 들어, 컨텐츠 제공자 디바이스(106)는 적어도 하나의 데이터 센터에 위치한 복수의 계산 리소스 또는 서버들을 포함할 수 있다.

컨텐츠 제공자 컴퓨팅 디바이스(106)는 디지털 컴포넌트를 데이터 처리 시스템(102)과 컴퓨팅 디바이스(104)에 제공할 수 있다. 디지털 컴포넌트는 그래픽, 텍스트, 하이퍼 링크 및 컴퓨터 실행 가능 명령들을 포함하는 웹 페이지일 수 있다. 디지털 컴포넌트는 웹 페이지를 렌더링하고 그 렌더링된 웹 페이지를 디스플레이 상에 사용자에게 디스플레이하는 웹 브라우저를 통해 최종 사용자에게 시각적으로 디스플레이될 수 있다. 디지털 컴포넌트는 주문, 상품, 서비스 또는 정보를 포함하는 웹 페이지이거나 이를 포함할 수 있다. 예를 들어, 디지털 컴포넌트는 의류를 판매하는 웹 사이트일 수 있다.

컴퓨팅 디바이스(104)는 적어도 하나의 센서(134), 변환기(136), 오디오 드라이버(138) 또는 전처리기(140)를 포함, 인터페이스 또는 통신할 수 있다. 센서(134)는 예를 들어, 주변 광 센서, 근접 센서, 온도 센서, 가속도계, 자이로스코프, 모션 검출기, GPS 센서, 위치 센서, 마이크로폰 또는 터치 센서를 포함할 수 있다. 변환기(136)는 스피커 또는 마이크로폰을 포함할 수 있다. 오디오 드라이버(138)는 하드웨어 변환기(136)에 소프트웨어 인터페이스를 제공할 수 있다. 오디오 드라이버(138)는 변환기(136)를 제어하도록 데이터 처리 시스템(102)에 의해 제공된 오디오 파일 또는 다른 명령을 실행하여, 대응하는 음향파 또는 음파를 생성할 수 있다. 전처리기(140)는 키워드를 검출하고 그 키워드에 기초하여 액션을 수행하도록 구성될 수 있다. 전처리기(140)는 추가 처리를 위해 하나 이상의 용어를 필터링하거나 그들 용어를 데이터 처리 시스템(102)으로 전송하기 전에 용어를 수정할 수 있다. 전처리기(140)는 마이크로폰에 의해 검출된 아날로그 오디오 신호를 디지털 오디오 신호로 변환하고, 디지털 오디오 신호를 운반하는 하나 이상의 데이터 패킷을 네트워크(105)를 통해 데이터 처리 시스템(102)으로 전송할 수 있다. 일부 경우에, 전처리기(140)는 "OK", "시작(start)" 또는 다른 웨이크 워드(wake word)와 같은 이러한 전송을 수행하기 위한 명령을 검출하는 것에 응답하여 입력 오디오 신호의 일부 또는 전부를 운반하는 데이터 패킷(또는 다른 프로토콜 기반 전송)을 전송할 수 있다. 상기 명령은 예를 들어, 입력 오디오 신호를 포함하는 데이터 패킷을 데이터 처리 시스템(102)으로 전송하기 위한 트리거 키워드 또는 다른 키워드 또는 승인을 포함할 수 있다. 일부 경우에, 컴퓨팅 디바이스(104)의 주요(primary) 사용자 인터페이스는 마이크로폰 및 스피커일 수 있다.

액션 유형은 서비스, 제품, 예약 또는 티켓 등을 포함한다. 액션의 유형은 서비스 또는 제품 유형을 추가로 포함할 수 있다. 예를 들어, 서비스 유형은 자동차 공유 서비스, 음식 배달 서비스, 세탁 서비스, 가정부 서비스, 수리 서비스 또는 가사 서비스(household services)를 포함할 수 있다. 제품의 유형은 예를 들어 옷, 신발, 장난감, 전자 제품, 컴퓨터, 서적 또는 보석류를 포함할 수 있다. 예약의 유형은 예를 들어 저녁 예약 또는 미용실 예약을 포함할 수 있다. 티켓의 유형은 예를 들어 영화 티켓, 스포츠 경기장 티켓 또는 항공권이 포함될 수 있다. 경우에 따라 서비스, 제품, 예약 또는 티켓의 유형은 가격, 위치, 배송 유형, 가용성 또는 기타 속성에 기초하여 분류(categorized)될 수 있다.

클라이언트 컴퓨팅 디바이스(104)는 (센서(134)를 통해) 클라이언트 컴퓨팅 디바이스(104)에 오디오 입력으로서 음성 쿼리들을 입력하고, 변환기(136)(예를 들어, 스피커)로부터 출력된, 데이터 처리 시스템(102)(또는 컨텐츠 제공자 컴퓨팅 디바이스(106))으로부터 클라이언트 컴퓨팅 디바이스(104)로 제공될 수 있는 컴퓨터 생성 음성의 형태의 오디오 출력을 수신하는 최종 사용자와 관련될 수 있다. 컴퓨터 생성 음성은 실제 사람 또는 컴퓨터 생성 언어로부터의 녹음을 포함할 수 있다. 음성 쿼리들 대신에, 입력은 또한 클라이언트 컴퓨팅 디바이스(104)로부터 (네트워크(105)를 통해) 생성 및 획득되고 그 음성 쿼리들의 파싱에 의해 획득된 동일한 유형의 정보를 얻기 위해 데이터 처리 시스템(102)에 의해 파싱되는 하나 이상의 이미지 또는 비디오 세그먼트를 포함할 수 있다. 예를 들어, 사용자는 구매하고자하는 아이템의 사진을 찍을 수 있다. 데이터 처리 시스템(102)은 이미지에 머신 비전(machine vision)을 수행하여 이미지의 컨텐츠를 식별하고, 이미지의 컨텐츠를 식별하는 텍스트 문자열을 생성할 수 있다. 그 텍스트 문자열은 입력 쿼리로서 사용될 수 있다.

데이터 처리 시스템(102)은 그 데이터 처리 시스템(102)이 예를 들어 네트워크(105)를 통해 다른 디바이스들과 통신할 수 있게 하는 적어도 하나의 인터페이스(110)를 포함, 인터페이스 또는 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 자연어 처리 컴포넌트(112)를 포함, 인터페이스 또는 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 다이렉트 액션 애플리케이션 프로그래밍 인터페이스("API")(116)를 포함, 인터페이스 또는 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 세션 핸들러(114)를 포함, 인터페이스 또는 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 탐색 컴포넌트(118)를 포함, 인터페이스 또는 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 오디오 신호 생성기(122)를 포함, 인터페이스 또는 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 데이터 저장소(124)를 포함, 인터페이스 또는 통신할 수 있다.

데이터 처리 시스템(102)은 탐색 컴포넌트(118)를 포함, 인터페이스 또는 통신할 수 있다. 탐색 컴포넌트(118)는 컨텐츠 제공자(106)에 의해 제공된 웹 사이트와 같은 디지털 컴포넌트와 컴퓨팅 디바이스(104)사이의 음성-기반 상호 작용을 가능하게 할 수 있다. 컨텐츠 제공자(106)에 의해 제공되는 디지털 컴포넌트는 음성 기반 상호 작용을 수용하도록 구성되지 않을 수 있다. 예를 들어, 디지털 컴포넌트는 텍스트, 이미지, 비디오, 입력 요소 및 기타 비-오디오 요소를 포함하는 웹 페이지일 수 있다. 부가적으로, 디지털 컴포넌트(또는 그의 제공자)와 데이터 처리 시스템(102) 사이에 이전에 설정된 통합이 없을 수 있다. 탐색 컴포넌트(118)는 예를 들어 헤드리스 브라우저 또는 헤드리스 웹킷 렌더러(webkit renderer)를 사용하여, 디지털 컴포넌트를 렌더링하고 그 디지털 컴포넌트에서 입력 요소, 텍스트 및 다른 데이터를 식별할 수 있다. 헤드리스 렌더러로 렌더링할 때, 렌더링된 디지털 컴포넌트는 그래픽 사용자 인터페이스가 필요하지 않다. 탐색 컴포넌트(118)는 상호 작용 모델을 사용하여 이들 요소와 상호 작용할 수 있다. 예를 들어, 탐색 컴포넌트(118)는 데이터 어레이를 입력 필드에 입력하고, 입력 요소(예를 들어, 탐색 또는 제출 버튼)를 선택 및 활성화하고, 상호 작용 모델에 기초하여 데이터를 검색하여, 컴퓨팅 디바이스(104)로부터 수신된 입력 오디오 신호에서 식별된 바와같은 액션을 완료할 수 있다. 일 예로서, "2개의 셔츠 구매"라는 입력 오디오 신호에 대해, 탐색 컴포넌트(118)는 "텍스트 = 2"의 데이터 어레이를 생성할 수 있다. 탐색 컴포넌트(118)는 또한 헤드리스 렌더링된 웹 페이지에서 입력 필드와 "구매" 버튼을 식별할 수 있다. 탐색 컴포넌트(118)는 텍스트 "2"를 입력 필드에 입력한 다음 "구매" 버튼을 선택하여 거래를 완료할 수 있다.

데이터 저장소(124)는 하나 이상의 로컬 또는 분산 데이터베이스를 포함할 수 있고, 데이터베이스 관리 시스템을 포함할 수 있다. 데이터 저장소(124)는 컴퓨터 데이터 스토리지 또는 메모리를 포함할 수 있고, 다른 데이터 중에서 하나 이상의 파라미터(126), 하나 이상의 정책(128), 상호 작용 모델들(130) 및 템플릿들(132)을 저장할 수 있다. 파라미터(126), 정책(128) 및 템플릿(132)은 클라이언트 컴퓨팅 디바이스(104)와 데이터 처리 시스템(102) 사이의 음성 기반 세션에 관한 규칙과 같은 정보를 포함할 수 있다. 데이터 저장소(124)는 또한 클라이언트 컴퓨팅 디바이스(104)와의 하나 이상의 통신 세션의 일부일 수 있는 입력 오디오 메시지뿐만 아니라 오디오 출력 또는 관련 메타 데이터를 위한 컨텐츠 아이템들을 포함할 수 있는 컨텐츠 데이터를 저장할 수 있다. 파라미터(126)는 예를 들어 임계치, 거리, 시간 간격, 지속 시간, 스코어 또는 가중치를 포함할 수 있다.

상호 작용 모델(130)은 탐색 컴포넌트(118)에 의해 생성 및 업데이트될 수 있다. 데이터 저장소(124)는 다수의 상호 작용 모델을 포함할 수 있다. 상호 작용 모델(130)은 일반 모델 및 컨텐츠 제공자 특정 모델로 분류될 수 있다. 일반 모델은 상이한 상호 작용 또는 액션 범주로 세분될 수 있다. 예를 들어, 상호 작용 모델(130)은 쇼핑 웹 사이트, 날씨 제공 웹 사이트 및 예약 부킹 웹 사이트와 같은 상이한 유형의 상업용 웹 사이트에 대한 일반 모델을 포함할 수 있다.

상호 작용 모델(130)은 또한 특정 모델을 포함할 수 있다. 특정 상호 작용 모델은 컨텐츠 제공자(106) 또는 특정 컨텐츠 제공자(106)에 의해 제공된 특정 디지털 컴포넌트에 특정적일 수 있다. 예를 들어, 특정 웹 사이트 Y에 대해, 특정 상호 작용 모델은 링크, 메뉴의 배치, 웹 사이트 탐색 방법 및 특정 제품 및 데이터가 웹 사이트 내에 저장 및 분류되는 방법을 알 수 있다. 탐색 컴포넌트(118)는 이 정보를 사용하여 웹 사이트를 탐색하고, 웹 사이트와 상호 작용할 때 그 웹 사이트에 데이터 어레이를 제공하여 웹 사이트와의 액션 또는 다른 거래를 완료할 수 있다.

일반 상호 작용 모델은 탐색 컴포넌트(118)가 특정 상호 작용 모델을 생성하기 위해 디지털 컴포넌트 또는 컨텐츠 제공자(106)와 사전 결정된 수의 상호 작용을 갖지 않았을 때 사용될 수 있다. 탐색 컴포넌트(118)는 특정 세션들(예를 들어, 사용자가 디지털 컴포넌트와 상호 작용하는 허가 또는 특정 트레이닝 세션을 획득할 때 사용자 세션)으로부터 초기에 데이터를 수집함으로써 그 모델들(일반 및 특정 상호 작용 모델 모두)을 트레이닝시킬 수 있다. 예를 들어, 입력 오디오 신호가 주어지면, 사용자는 그 입력 오디오 신호(예를 들어, "Ok, 셔츠 구매")의 작업을 완료할 수 있다. 탐색 컴포넌트(118)는 액션을 완료할 때 사용자에 의해 이루어진 입력을 수신하여, 탐색 컴포넌트(118)가 액션을 완료하는데 사용되는 텍스트 필드 및 버튼과 같은 입력 요소들을 식별할 수 있게 하는 모델을 구축할 수 있다. 특정 모델은 특정 디지털 컴포넌트에 대해 트레이닝될 수 있고, 일반 모델은 주어진 카테고리 내의 복수의 디지털 컴포넌트를 사용하여 트레이닝될 수 있다. 트레이닝은 모델이 특정 제품 구매와 관련된 단계, 제품의 카테고리, 제품 정렬 및 디지털 컴포넌트에서 수행되는 주문 방법과 같은 상호 작용 데이터를 결정할 수 있게 한다. 모델은 탐색 컴포넌트(118)가 입력 오디오 신호에서 식별된 제품 또는 서비스를 정확하게 식별하고 상호 작용할 수 있게 한다.

두 유형의 상호 작용 모델(130)은 데이터 처리 시스템(102)과 컨텐츠 제공자(106) 사이의 세션 동안 및 후에 트레이닝되고 업데이트될 수 있다. 예를 들어, 디지털 컴포넌트에 대한 일반 모델이 사용되는 동안, 탐색 컴포넌트(118)는 디지털 컴포넌트에 대한 특정 모델을 구축할 수 있다. 일단 특정 탐색 컴포넌트(118)에 대한 특정 상호 작용 모델이, 예를 들어 사전 결정된 수의 세션으로부터의 데이터로 구축됨으로써 신뢰할 수 있는 것으로 간주되면, 탐색 컴포넌트(118)는 일반 모델보다는 디지털 컴포넌트에 대한 특정 상호 작용 모델을 사용하기 시작할 수 있다. 탐색 컴포넌트(118)는 추가(또는 새로운 세션)로부터의 데이터를 사용하여 상호 작용 모델(130)을 업데이트할 수 있다.

인터페이스(110), 자연어 처리 컴포넌트(112), 세션 핸들러(114), 다이렉트 액션 API(116), 탐색 컴포넌트(118) 또는 오디오 신호 생성 컴포넌트(122)는 각각 적어도 하나의 처리 유닛 또는 프로그래머블 로직 어레이 엔진과 같은 다른 논리 디바이스, 또는 데이터베이스 저장소 또는 데이터베이스(124)와 통신하도록 구성된 모듈을 포함할 수 있다. 인터페이스(110), 자연어 처리 컴포넌트(112), 세션 핸들러(114), 다이렉트 액션 API(116), 탐색 컴포넌트(118), 오디오 신호 생성 컴포넌트(122) 및 데이터 저장소(124)는 개별 컴포넌트, 단일 컴포넌트, 또는 데이터 처리 시스템(102)의 일부일 수 있다. 데이터 처리 시스템(102)과 같은 시스템(100) 및 그의 컴포넌트들은 하나 이상의 프로세서, 논리 디바이스 또는 회로와 같은 하드웨어 요소를 포함할 수 있다.

데이터 처리 시스템(102)은 복수의 컴퓨팅 디바이스(104)와 관련된 익명의 컴퓨터 네트워크 활동 정보를 획득할 수 있다. 컴퓨팅 디바이스(104)의 사용자는 사용자의 컴퓨팅 디바이스(104)에 대응하는 네트워크 활동 정보를 획득하도록 데이터 처리 시스템(102)을 긍정적으로 인증할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 컴퓨팅 디바이스(104)의 사용자에게 하나 이상의 유형의 네트워크 활동 정보를 획득하기 위한 동의를 프롬프트할 수 있다. 컴퓨팅 디바이스(104)의 사용자의 신원은 익명으로 유지될 수 있고, 컴퓨팅 디바이스(104)는 고유 식별자(예를 들어, 데이터 처리 시스템(102) 또는 컴퓨팅 디바이스의 사용자에 의해 제공된 사용자 또는 컴퓨팅 디바이스(104)에 대한 고유 식별자)와 연관될 수 있다. 데이터 처리 시스템(102)은 각 관측값을 대응하는 고유 식별자와 연관시킬 수 있다.

데이터 처리 시스템(102)은 예를 들어 데이터 패킷을 사용하여 정보를 수신 및 전송하도록 설계, 구성(configured), 구성(constructed) 또는 동작하는 인터페이스 컴포넌트(110)를 포함할 수 있다. 인터페이스(110)는 네트워크 프로토콜과 같은 하나 이상의 프로토콜을 사용하여 정보를 수신 및 송신할 수 있다. 인터페이스(110)는 하드웨어 인터페이스, 소프트웨어 인터페이스, 유선 인터페이스 또는 무선 인터페이스를 포함할 수 있다. 인터페이스(110)는 하나의 포맷에서 다른 포맷으로 데이터를 변환하거나 포맷하는 것을 용이하게 할 수 있다. 예를 들어, 인터페이스(110)는 소프트웨어 컴포넌트와 같은 다양한 컴포넌트 사이에서 통신하기 위한 정의(definitions)를 포함하는 애플리케이션 프로그래밍 인터페이스를 포함할 수 있다.

데이터 처리 시스템(102)은 오디오 입력 신호를 포함하거나 식별하는 데이터 패킷 또는 다른 신호를 수신할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 NLP 컴포넌트(112)를 실행(execute) 또는 실행(run)하여 오디오 신호를 수신 또는 획득하고, 그 오디오 신호를 파싱할 수 있다. 예를 들어, NLP 컴포넌트(112)는 인간과 컴퓨터 간의 상호 작용을 제공할 수 있다. NLP 컴포넌트(112)는 자연어를 이해하고 데이터 처리 시스템(102)이 인간 또는 자연어 입력으로부터 의미를 도출할 수 있게 하는 기술로 구성될 수 있다. NLP 컴포넌트(112)는 통계적 기계 학습과 같은 기계 학습에 기초한 기술을 포함하거나 구성될 수 있다. NLP 컴포넌트(112)는 결정 트리, 통계 모델 또는 확률 모델을 이용하여 입력 오디오 신호를 파싱할 수 있다. NLP 컴포넌트(112)는 예를 들어 명명된 엔티티 인식과 같은 기능(예를 들어, 텍스트의 스트림이 주어지면, 그 텍스트내의 어떤 아이템이 사람 또는 장소와 같은 적절한 이름에 맵핑되는지, 그리고 사람, 위치 또는 조직과 같은 그러한 이름의 각각의 유형이 무엇인지 결정), 자연어 생성(예를 들어, 컴퓨터 데이터베이스 또는 의미적 의도로부터의 정보를 이해 가능한 인간 언어로 변환), 자연어 이해(예를 들어, 텍스트를 컴퓨터 모듈이 조작할 수 있는 1차 논리 구조와 같은 보다 공식적인 표현으로 변환), 기계 번역(예를 들어, 하나의 언어에서 다른 언어로 텍스트를 자동으로 번역), 형태학적 분할(예를 들어, 단어를 개별 형태소로 분리하고 그 형태소의 클래스 식별, 이는 고려되는 언어의 단어의 형태 또는 구조의 복잡성에 기초하여 어려울 수 있음), 질문 답변(예를 들어, 특정적이거나 개방적일 수 있는 인간 언어 질문에 대한 답변 결정, 의미론적(semantic) 처리(예를 들어, 식별된 단어를 유사한 의미를 갖는 다른 단어와 관련시키기 위해 단어를 식별하고 그 의미를 인코딩 한 후에 발생할 수 있는 처리)를 수행할 수 있다.

NLP 컴포넌트(112)는 입력 신호를 저장된 대표적인 오디오 파형 세트(예를 들어, 데이터 저장소(124)내의)와 비교하고 가장 근접한 매칭을 선택함으로써 오디오 입력 신호를 인식된 텍스트로 변환한다. 오디오 파형 세트는 데이터 저장소(124) 또는 데이터 처리 시스템(102)에 액세스 가능한 다른 데이터베이스에 저장될 수 있다. 대표적인 파형은 다수의 사용자 세트에 걸쳐 생성된 다음, 사용자로부터의 음성 샘플로 보강될 수 있다. 오디오 신호가 인식된 텍스트로 변환된 후, NLP 컴포넌트(112)는 그 텍스트를 예를 들어 사용자간 트레이닝 또는 수동 사양 (specification)을 통해, 데이터 처리 시스템(102)이 서비스할 수 있는 액션과 관련된 단어들과 매칭시킨다.

오디오 입력 신호는 클라이언트 컴퓨팅 디바이스(104)의 센서(134) 또는 변환기(136)(예를 들어, 마이크로폰)에 의해 검출될 수 있다. 변환기(136), 오디오 드라이버(138) 또는 다른 컴포넌트를 통해, 클라이언트 컴퓨팅 디바이스(104)는 오디오 입력 신호를 (예를 들어, 네트워크(105)를 통해) 데이터 처리 시스템(102)으로 제공하고, 이것은 (예를 들어, 인터페이스(110)에 의해) 수신되어 NLP 컴포넌트(112)로 제공되거나 데이터 저장소(124)에 저장된다.

NLP 컴포넌트(112)는 입력 오디오 신호를 획득할 수 있다. 입력 오디오 신호로부터, NLP 컴포넌트(112)는 적어도 하나의 요청 또는 그 요청에 대응하는 적어도 하나의 트리거 키워드를 식별할 수 있다. 요청은 입력 오디오 신호의 의도 또는 주제를 나타낼 수 있다. 트리거 키워드는 수행될 수 있는 액션의 유형을 나타낼 수 있다. 예를 들어, NLP 컴포넌트(112)는 입력 오디오 신호를 파싱하여, 저녁 식사 및 영화에 참석하기 위해 저녁 동안 집을 떠나는 적어도 하나의 요청을 식별할 수 있다. 트리거 키워드는 적어도 하나의 단어, 문구, 어근(root) 또는 부분 단어, 또는 수행할 액션을 나타내는 파생어를 포함할 수 있다. 예를 들어, 입력 오디오 신호에서 트리거 키워드 "이동(go)"또는 "로 이동(to go to)"은 이동 수단 (transport)에 대한 필요성을 나타낼 수 있다. 이 예에서, 입력 오디오 신호(또는 식별된 요청)는 수송에 대한 의도를 직접적으로 표현하지 않지만, 트리거 키워드는 이동 수단이 요청에 의해 표시되는 적어도 하나의 다른 액션에 대한 보조 액션임을 나타낸다.

NLP 컴포넌트(112)는 입력 오디오 신호를 파싱하여 요청 및 트리거 키워드를 식별, 결정, 검색 또는 획득할 수 있다. 예를 들어, NLP 컴포넌트(112)는 시맨틱 프로세싱 기술을 입력 오디오 신호에 적용하여 트리거 키워드 또는 요청을 식별할 수 있다. NLP 컴포넌트(112)는 시맨틱 프로세싱 기술을 입력 오디오 신호에 적용하여, 제1 트리거 키워드 및 제2 트리거 키워드와 같은 하나 이상의 트리거 키워드를 포함하는 트리거 문구를 식별할 수 있다. 예를 들어, 입력 오디오 신호는 "내 세탁과 드라이 클리닝을 할 사람이 필요해(I need someone to do my laundry and my dry cleaning"라는 문장을 포함할 수 있다. NLP 컴포넌트 (112)는 데이터 패킷에 시맨틱 처리 기술 또는 다른 자연어 처리 기술을 상기 문장을 포함하는 데이터 패킷에 적용하여, 트리거 문구 "내 세탁을 할(do my laundry)" 및 "내 드라이 클리닝을 할(do my dry cleaning)"을 식별할 수 있다. NLP 컴포넌트(112)는 세탁 및 드라이 클리닝과 같은 다수의 트리거 키워드를 추가로 식별할 수 있다. 예를 들어, NLP 컴포넌트(112)는 트리거 문구가 트리거 키워드 및 제2 트리거 키워드를 포함한다고 결정할 수 있다.

NLP 컴포넌트(112)는 입력 오디오 신호를 파싱하여, 요청과 크리거 키워드를 획득하기 위하여 NLP 컴포넌트(112)가 사용하는 방법과 유사한 방법으로 원격 컨텐츠 제공자(106) 또는 원격 데이터 처리 시스템(102)의 신원 확인을 식별, 결정, 검색 또는 획득할 수 있다. 예를 들어, "ok, ABC에서 빨간 셔츠 구매"라는 문구를 포함하는 입력 오디오 신호가 파싱되어 ABC를 셔츠 판매자로 식별할 수 있다. 그런 다음 데이터 처리 시스템(102)은 ABC와 관련된 컨텐츠 제공자(106)를 결정할 수 있다. 컨텐츠 제공자(106)는 ABC의 웹 사이트를 호스팅하는 서버일 수 있다. 데이터 처리 시스템(102)은 "www.ABC.com"과 같은 ABC의 웹 주소를 식별할 수 있다. 데이터 처리 시스템(102)은 "www.ABC.com의 ABC를 찾고 계신가요?"와 같은 확인 오디오 신호를 컴퓨팅 디바이스(104)에 전송할 수 있다. 컴퓨팅 디바이스(104)로부터 확인 메시지를 수신하는 것에 응답하여, 데이터 처리 시스템(102)은 www.ABC.com에 위치한 컨텐츠 제공자(106)와의 세션을 개시할 수 있다.

NLP 컴포넌트(112)는 입력 오디오 신호를 필터링하여 트리거 키워드를 식별할 수 있다. 예를 들어, 입력 오디오 신호를 운반하는 데이터 패킷은 "공항으로 이동하는데 나를 도와 줄 사람을 구할 수 있다면 좋을 텐데(It would be great if I could get someone that could help me go to the airport"를 포함할 수 있고, 이 경우 NLP 컴포넌트(112)는 다음과 같이 하나 이상의 용어들, "it", "would", "be", "great", "if", "I", "could", "get", "someone", "that", "could" 또는 "help"을 필터링할 수 있다. 이러한 용어들을 필터링함으로써, NLP 컴포넌트(112)는 "공항으로 이동(go to the airport)"과 같은 트리거 키워드를 보다 정확하고 신뢰성있게 식별할 수 있고, 이것이 택시 또는 승차 공유 서비스에 대한 요청인지를 결정할 수 있다.

데이터 처리 시스템(102)은 트리거 키워드에 기초하여, 요청 및 식별된 원격 컨텐츠 제공자(106)에 응답하는 액션 데이터 구조를 생성하도록 설계되고 구성된 다이렉트 액션 API(116)를 포함할 수 있다. 데이터 처리 시스템(102)의 프로세서들은 다이렉트 액션 API(116)를 호출하여 컨텐츠 제공자(106)에 데이터 구조를 생성하는 스크립트를 실행하여, 자동차 공유 서비스에서의 자동차와 같은 서비스 또는 제품을 요청하거나 주문할 수 있다. 다이렉트 액션 API(116)는 위치, 시간, 사용자 계정, 물류 또는 다른 정보를 결정하기 위해 클라이언트 컴퓨팅 디바이스(104)로부터 최종 사용자의 동의로 수신된 데이터뿐만 아니라 데이터 저장소(124)로부터 데이터를 획득하여, 데이터 처리 시스템(102)이 자동차 공유 서비스에서 자동차를 예약과 같은 동작을 수행하게 할 수 있다.

다이렉트 액션 API(116)는 데이터 처리 시스템(102)이 컨텐츠 제공자 디바이스(106)로부터의 디지털 컴포넌트와 상호 작용할 때 최종 사용자의 의도를 만족시키기 위해 지정된 액션을 실행할 수 있다. 입력에서 지정된 액션에 따라, 다이렉트 액션 API(116)는 액션 데이터 구조에 포함될 수 있는 사용자 요청을 이행하는데 필요한 파라미터를 식별하는 코드 또는 대화 스크립트를 실행할 수 있다. 이러한 코드는 추가 정보를 조회(look-up)할 수 있거나 또는 입력 오디오 신호가 "ok, 빨간 셔츠로(ok, by a red shirt)”인 위의 예를 계속하기 위해, 최종 사용자에게 사용자의 선호 셔츠 사이즈와 같은 질문을 하도록 클라이언트 컴퓨팅 디바이스(104)에서 렌더링하기 위한 오디오 출력을 제공할 수 있다. 다이렉트 액션 API(116)는 필요한 파라미터를 결정하고 정보를 액션 데이터 구조로 패키징할 수 있다. 예를 들어 입력 오디오 신호가 "ok, 빨간색 셔츠 구매"인 경우, 해당 액션 데이터 구조에는 사용자의 선호 셔츠 크기가 포함될 수 있다.

다이렉트 액션 API(116)는 요청의 유형을 식별할 때, 데이터 저장소(124)에 저장된 템플릿 저장소로부터 대응하는 템플릿을 액세스할 수 있다. 템플릿들(132)은 컨텐츠 제공자(106)에 의해 제공되는 디지털 컴포넌트를 이행하거나 그와 상호 작용하는 동작을 추가로 수행하기 위해 다이렉트 액션 API(116)에 의해 채워질 수 있는 구조화된 데이터 세트의 필드들을 포함할 수 있다. 다이렉트 액션 API(116)는 템플릿 저장소에서 조회를 수행하여, 트리거 키워드 및 요청의 하나 이상의 특성과 매칭하는 템플릿을 선택할 수 있다. 예를 들어, 요청이 자동차에 대한 요청 또는 목적지로의 탑승(ride)에 해당하는 경우, 데이터 처리 시스템(102)은 자동차 공유 서비스 템플릿을 선택할 수 있다. 자동차 공유 서비스 템플릿은 디바이스 식별자, 픽업 위치, 목적지 위치, 승객 수 또는 서비스 유형 중 하나 이상의 필드를 포함할 수 있다. 다이렉트 액션 API(116)는 필드들을 값으로 채울 수 있다. 그 필드들을 값으로 채우기 위해, 다이렉트 액션 API(116)는 컴퓨팅 디바이스(104)의 하나 이상의 센서(134) 또는 컴퓨팅 디바이스(104)의 사용자 인터페이스로부터 정보를 핑(ping), 폴링 또는 획득할 수 있다. 예를 들어, 다이렉트 액션 API(116)는 GPS 센서와 같은 위치 센서를 사용하여 소스 위치를 검출할 수 있다. 다이렉트 액션 API(116)는 컴퓨팅 디바이스(104)의 최종 사용자에게 설문, 프롬프트 또는 쿼리를 제출함으로써 추가 정보를 획득할 수 있다. 다이렉트 액션 API(116)는 데이터 처리 시스템(102)의 인터페이스(110) 및 컴퓨팅 디바이스(104)의 사용자 인터페이스(예를 들어, 오디오 인터페이스, 음성 기반 사용자 인터페이스, 디스플레이 또는 터치 스크린)를 통해 설문, 프롬프트 또는 쿼리를 제출할 수 있다. 따라서, 다이렉트 액션 API(116)는 트리거 키워드 또는 요청에 기초하여 액션 데이터 구조를 위한 템플릿을 선택하고, 템플릿의 하나 이상의 필드를 하나 이상의 센서(134)에 의해 검출되거나 사용자 인터페이스를 통해 획득된 정보로 채우고, 컨텐츠 제공자(106)에 의한 동작의 수행을 용이하게 하기 위해 액션 데이터 구조를 생성(generate), 생성(create) 또는 구성한다.

데이터 처리 시스템(102)은 예를 들어, 트리거 키워드, 요청, 컨텐츠 제공자의 유형(106), 컨텐츠 제공자(106)가 갖는 카테고리(예를 들어, 택시 서비스, 세탁 서비스, 꽃 서비스, 소매 서비스 또는 음식 배달), 위치 또는 다른 센서 정보 중 하나 이상을 포함하는 다양한 인자에 기초하여 템플릿 데이터 구조로부터 템플릿을 선택할 수 있다.

트리거 키워드에 기초하여 템플릿을 선택하기 위해, 데이터 처리 시스템(102)은 (예를 들어, 다이렉트 액션 API(116)를 통해) 트리거 키워드를 사용하여 템플릿 데이터베이스에서 조회 또는 다른 쿼리 동작을 수행하여, 그 트리거 키워드와 매핑하거나 이에 대응하는 템플릿 데이터 구조를 식별할 수 있다. 예를 들어, 템플릿 데이터베이스의 각 템플릿은 하나 이상의 트리거 키워드와 연관되어, 그 템플릿이 데이터 처리 시스템(102)이 데이터 처리 시스템(102)과 컨텐츠 제공자(106)사이의 통신 세션을 설정하기 위해 데이터 처리 시스템(102)이 처리할 수 있는 트리거 키워드에 응답하는 액션 데이터 구조를 생성하도록 구성되어 있음을 나타낼 수 있다.

액션 데이터 구조를 구성 또는 생성하기 위해, 데이터 처리 시스템(102)은 선택된 템플릿에서 하나 이상의 필드를 식별하여 값들로 채울 수 있다. 필드는 숫자 값, 문자열, 유니 코드 값, 부울 논리, 이진 값, 16진 값, 식별자, 위치 좌표, 지리적 영역, 타임 스탬프 또는 기타 값으로 채워질 수 있다. 상기 필드들 또는 데이터 구조 자체는 데이터 보안을 유지하기 위해 암호화되거나 마스킹될 수 있다.

템플릿의 필드들을 결정할 때, 데이터 처리 시스템(102)은 액션 데이터 구조를 생성하기 위해 템플릿의 필드를 채울 필드에 대한 값을 식별할 수 있다. 데이터 처리 시스템(102)은 데이터 저장소(124)에 대한 조회 또는 다른 쿼리 동작을 수행함으로써 필드들에 대한 값을 획득, 검색, 결정 또는 식별할 수 있다.

일부 경우에, 데이터 처리 시스템(102)은 필드에 대한 정보 또는 값이 데이터 저장소(124)에 없다고 결정할 수 있다. 데이터 처리 시스템(102)은 데이터 저장소(124)에 저장된 정보 또는 값이 구식이거나, 오래되었거나, 또는 NLP 컴포넌트(112)에 의해 식별된 트리거 키워드 및 요청에 의해 식별된 요청에 응답하여 액션 데이터 구조를 구성할 목적에 적합하지 않은 것으로 결정할 수 있(예를 들어, 클라이언트 컴퓨팅 디바이스(104)의 위치는 예전 위치로 현재 위치가 아닐 수 있고; 계정이 만료될 수 있고; 목적지 식당이 새로운 위치, 신체 활동 정보; 또는 운송 수단으로 이동했을 수 있다).

데이터 처리 시스템(102)이 데이터 처리 시스템(102)의 메모리에서, 템플릿의 필드에 대한 값들 또는 정보에 현재 액세스할 수 없다고 결정하면, 데이터 처리 시스템(102)은 값들 또는 정보를 획득할 수 있다. 데이터 처리 시스템(102)은 클라이언트 컴퓨팅 디바이스(104)의 하나 이상의 이용 가용 센서를 질의 또는 폴링하고, 클라이언트 컴퓨팅 디바이스(104)의 최종 사용자에게 정보를 프롬프팅하고, 또는 HTTP 프로토콜을 사용하여 온라인 웹-기반 리소스에 액세스함으로써 정보를 획득하거나 얻을 수 있다. 예를 들어, 데이터 처리 시스템(102)은 템플릿의 필요한 필드일 수 있는 클라이언트 컴퓨팅 디바이스(104)의 현재 위치를 가지고 있지 않다고 결정할 수 있다. 데이터 처리 시스템(102)은 클라이언트 컴퓨팅 디바이스(104)에 위치 정보를 질의할 수 있다. 데이터 처리 시스템(102)은 GPS 센서, WIFI 삼각 측량, 셀 타워 삼각 측량, 블루투스 비콘, IP 주소 또는 다른 위치 감지 기술과 같은 하나 이상의 위치 센서(134)를 사용하여 위치 정보를 제공하도록 클라이언트 컴퓨팅 디바이스(104)에게 요청할 수 있다.

일부 경우에, 데이터 처리 시스템(102)은 트리거 키워드 또는 요청에 기초하여 세션을 수립할 원격 컨텐츠 제공자(106)를 식별할 수 있다. 트리거 키워드에 기초하여 컨텐츠 제공자(106)를 식별하기 위해, 데이터 처리 시스템(102)은 트리거 키워드에 맵핑하는 컨텐츠 제공자(106)를 식별하기 위해 데이터 저장소(124)에서 조회를 수행할 수 있다. 예를 들어, 트리거 키워드가 "탑승(ride)"또는 "로 이동할(to go to)"을 포함하면, 데이터 처리 시스템(102)은 (예를 들어, 다이렉트 액션 API(116)를 통해) 택시 서비스 회사 A에 대응하는 컨텐츠 제공자(106)(또는 그 웹 주소)를 식별할 수 있다. 데이터 처리 시스템(102)은 식별된 컨텐츠 제공자(106)에 기초하여 템플릿 데이터베이스로부터 템플릿을 선택할 수 있다. 데이터 처리 시스템(102)은 인터넷 기반 검색을 수행함으로써 컨텐츠 제공자(106)를 식별할 수 있다.

데이터 처리 시스템(102)은 컴퓨팅 디바이스(104)와 데이터 처리 시스템 (102) 사이의 통신 세션을 수립하기 위해 세션 핸들러 컴포넌트(114)를 포함, 실행, 액세스 또는 통신할 수 있다. 통신 세션은 또한 데이터 처리 시스템(102)과 컨텐츠 제공자(106) 사이의 하나 이상의 데이터 전송을 지칭할 수 있다. 컴퓨팅 디바이스(104)와 데이터 처리 시스템(102) 사이의 통신 세션은 컴퓨팅 디바이스(104)의 센서(134)에 의해 검출되는 입력 오디오 신호의 전송 및 데이터 처리 시스템(102)에 의해 컴퓨팅 디바이스(104)로 전송된 출력 신호를 포함할 수 있다. 데이터 처리 시스템(102)은 (예를 들어, 세션 핸들러 컴포넌트(114)를 통해) 입력 오디오 신호의 수신에 응답하여 통신 세션을 수립할 수 있다. 데이터 처리 시스템(102)은 통신 세션의 지속 기간을 설정할 수 있다. 데이터 처리 시스템(102)은 통신 세션에 대해 설정된 지속 기간에 대해 타이머 또는 카운터를 설정할 수 있다. 타이머의 만료에 응답하여, 데이터 처리 시스템(102)은 통신 세션을 종료할 수 있다. 데이터 처리 시스템(102)과 컨텐츠 제공자(106) 사이의 통신 세션은 컨텐츠 제공자(106)로부터 데이터 처리 시스템(102)으로의 디지털 컴포넌트의 전송을 포함할 수 있다. 데이터 처리 시스템(102)과 컨텐츠 제공자(106) 사이의 통신 세션은 또한 컨텐츠 제공자 (106)로의 컨텐츠 어레이의 전송을 포함할 수 있다. 통신 세션은 데이터 처리 시스템(102)과 컨텐츠 제공자(106) 및 데이터 처리 시스템(102)과 컴퓨팅 디바이스 (104)사이에서 데이터(예를 들어, 디지털 컴포넌트, 인증 정보, 크리덴셜 등)가 전송되는 네트워크-기반 통신 세션을 지칭할 수 있다.

데이터 처리 시스템(102)은 출력 신호를 생성하기 위해 오디오 신호 생성 컴포넌트(122)를 포함, 실행 또는 통신할 수 있다. 출력 신호는 하나 이상의 부분을 포함할 수 있다. 출력 신호는 컨텐츠 제공자(106)로부터 수신된 디지털 컴포넌트로부터 식별된 컨텐츠를 포함할 수 있다.

오디오 신호 생성 컴포넌트(122)는 제1 데이터 구조에 대응하는 사운드를 갖는 제1 부분으로 출력 신호를 생성할 수 있다. 예를 들어, 오디오 신호 생성 컴포넌트(122)는 다이렉트 액션 API(116)에 의해 액션 데이터 구조의 필드에 채워진 하나 이상의 값에 기초하여 출력 신호의 제1 부분을 생성할 수 있다. 택시 서비스 예에서, 필드들의 값은 예를 들어 픽업 위치는 123 Main Street, 목적지 위치는 1234 Main Street, 승객 수는 2, 서비스 수준은 이코노미를 포함할 수 있다.

데이터 처리 시스템(102)은 (예를 들어, 인터페이스(110) 및 네트워크(105)를 통해) 오디오 신호 생성 컴포넌트(122)에 의해 생성된 출력 신호를 포함하는 데이터 패킷을 전송할 수 있다. 출력 신호는 컴퓨팅 디바이스(104)의 오디오 드라이버 컴포넌트(138) 또는 그에 의해 실행된 오디오 드라이버 컴포넌트(138)가 컴퓨팅 디바이스(104)의 스피커(예를 들어, 변환기(136))를 구동하여 그 출력에 대응하는 음향 파형을 생성하게 할 수 있다.

컨텐츠 제공자(106)는 웹 사이트, 상품 또는 서비스(모두 일반적으로 디지털 컴포넌트로 지칭됨)를 컴퓨팅 디바이스(104) 및 데이터 처리 시스템(102)에 제공할 수 있다. 서비스 및 상품은 물리적으로 제공된 서비스 및 상품(예를 들어, 의류, 자동차 서비스, 기타 소모품 등)일 수 있고, 디지털 컴포넌트와 관련될 수 있다. 예를 들어, 자동차 서비스를 위한 디지털 컴포넌트는 사용자가 자동차 서비스를 스케줄링하는 웹 사이트일 수 있다. 서비스 또는 상품과 관련된 디지털 컴포넌트는 구매, 가입, 상품 또는 서비스의 설정, 또는 상품 및 서비스와 관련된 다른 거래에 사용되는 디지털 컴포넌트일 수 있다.

컨텐츠 제공자(106)는 디지털 컴포넌트에 하나 이상의 키워드를 포함할 수 있다. 키워드는 메타 태그, 헤더 문자열, 디지털 컴포넌트 본문 및 링크일 수 있다. 디지털 컴포넌트를 수신한 후, 탐색 컴포넌트(118)는 키워드를 분석하여, 디지털 컴포넌트(또는 디지털 컴포넌트와 관련된 컨텐츠 제공자(106))를 상이한 카테고리로 분류한다. 예를 들어, 디지털 컴포넌트는 디지털 컴포넌트의 일반적인 주제를 식별하는 뉴스, 소매 등의 카테고리로 분류될 수 있다. 탐색 컴포넌트(118)는 디지털 컴포넌트의 카테고리에 적어도 부분적으로 기초하여 상호 작용 모델(130)로부터 상호 작용 모델을 선택할 수 있다.

디지털 컴포넌트는 컴퓨팅 디바이스(104)의 디스플레이 디바이스를 통해 렌더링되거나 데이터 처리 시스템(102)에 렌더링될 수 있다. 렌더링은 컨텐츠 아이템을 디스플레이 디바이스에 디스플레이하는 것을 포함할 수 있다. 일부 구현예에서, 컴퓨팅 디바이스(104)는 디지털 컴포넌트를 렌더링하기 위한 디스플레이 디바이스를 포함하지 않는다. 예를 들어, 컴퓨팅 디바이스(104)는 컴퓨팅 디바이스(104)의 스피커를 통해 디지털 컴포넌트를 재생함으로써만 디지털 컴포넌트를 렌더링할 수 있다. 데이터 처리 시스템(102)은 중개자로 작용하여 컴퓨팅 디바이스(104)가 오디오 기반 방식으로 디지털 컴포넌트와 상호 작용할 수 있게 한다. 컴퓨팅 디바이스 (104)는 입력 오디오 신호를 데이터 처리 시스템(102)의 인터페이스(110)에 전달하기 위한 앱과 같은 클라이언트 컴퓨팅 디바이스(104)에 설치된 애플리케이션, 스크립트 또는 프로그램을 포함할 수 있다. 애플리케이션은 또한 출력 오디오 신호를 렌더링하기 위해 컴퓨팅 디바이스(104)의 컴포넌트를 구동할 수 있다.

도 2는 음성 활성화된 데이터 패킷(또는 다른 프로토콜) 기반의 컴퓨터 네트워크에서 디지털 컴포넌트를 검색하고 상호 작용하기 위한 예시적인 방법(200)의 블록도를 도시한다. 도 3은 도 2에 도시된 방법(200) 동안 도 1에 도시된 시스템을 통한 예시적인 데이터 흐름의 블록도를 도시한다. 방법(200)은 입력 오디오 신호를 수신하는 단계를 포함한다(ACT 202). 방법(200)은 요청, 컨텐츠 제공자 및 트리거 키워드를 식별하기 위해 입력 오디오 신호를 파싱하는 단계를 포함한다(ACT 204). 방법(200)은 액션 데이터 구조를 생성하는 단계를 포함한다(ACT 206). 방법(200)은 컨텐츠 제공자와의 세션을 수립하는 단계를 포함한다(ACT 208). 방법(200)은 수신된 디지털 컴포넌트를 렌더링하는 단계(ACT 210)를 포함한다. 방법(200)은 상호 작용 모델을 선택하는 단계를 포함한다(ACT 212). 방법(200)은 상호 작용 모델에 기초하여 데이터 어레이를 생성하는 단계를 포함한다(단계 214). 방법(200)은 데이터 어레이를 컨텐츠 제공자에게 전송하는 단계를 포함한다(단계 216).

전술한 바와 같이, 도 2 및 도 3을 참조하면, 방법(200)은 입력 오디오 신호를 수신하는 단계를 포함한다(ACT 202). 데이터 처리 시스템(102)은 컴퓨팅 디바이스(104)로부터 입력 오디오 신호(320)를 수신할 수 있다. 입력 오디오 신호(320)는 네트워크를 거쳐 NLP 컴포넌트(112)를 통해 데이터 처리 시스템(102)에 의해 수신될 수 있다. NLP는 데이터 처리 시스템(102)에 의해 실행될 수 있다. 데이터 처리 시스템(102)은 입력 오디오 신호를 포함하는 데이터 패킷으로서 입력 오디오 신호(320)를 수신할 수 있다. 입력 오디오 신호는 컴퓨팅 디바이스(104)의 마이크로폰과 같은 센서에 의해 검출될 수 있다.

방법(200)은 요청, 컨텐츠 제공자 및 트리거 키워드를 식별하기 위해 입력 오디오 신호를 파싱하는 단계를 포함한다(ACT 204). 입력 오디오 신호는 자연어 처리 컴포넌트(112)에 의해 파싱될 수 있다. 예를 들어, 컴퓨팅 디바이스(104)에 의해 검출된 오디오 신호는 "오케이 디바이스, 나는 ABC 회사(ABC Co)의 셔츠를 원해"를 포함할 수 있다. 이 입력 오디오 신호에서, 초기 트리거 키워드는 "오케이 디바이스"를 포함할 수 있으며, 이는 입력 오디오 신호를 데이터 처리 시스템(102)에 전송하도록 컴퓨팅 디바이스(104)에 지시할 수 있다. 컴퓨팅 디바이스(104)의 전처리기는 나머지 오디오 신호를 데이터 처리 시스템(102)으로 전송하기 전에 "오케이 디바이스"라는 용어를 필터링할 수 있다. 일부 경우에, 컴퓨팅 디바이스(104)는 추가 용어를 필터링하거나 키워드를 생성하여 추가 처리를 위해 데이터 처리 시스템(102)으로 전송할 수 있다.

데이터 처리 시스템(102)은 입력 오디오 신호(320)에서 트리거 키워드를 식별할 수 있다. 문구일 수 있는 트리거 키워드는 위의 예에서 "나는 셔츠를 원해"를 포함할 수 있다. 그 트리거 키워드는 서비스 또는 제품(예컨대, 셔츠)의 유형 및 수행할 조치를 나타낼 수 있다. 데이터 처리 시스템(102)은 입력 오디오 신호에서 요청을 식별할 수 있다. 그 요청은“나는 원해”라는 용어에 기초하여 결정될 수 있다. 트리거 키워드 및 요청은 시맨틱 프로세싱 기술 또는 다른 자연어 처리 기술을 사용하여 결정될 수 있다. 데이터 처리 시스템(102)은 컨텐츠 제공자(106)를 ABC 회사로 식별할 수 있다. 데이터 처리 시스템(102)은 ABC 회사와 같은 컨텐츠 제공자(106)와 관련된 컨텐츠 제공자(106)의 웹 사이트, IP 주소 또는 다른 네트워크 위치를 식별할 수 있다.

방법(200)은 액션 데이터 구조를 생성하는 단계를 포함한다(ACT 206). 다이렉트 액션 애플리케이션 프로그래밍 인터페이스는 트리거 키워드에 기초하여 액션 데이터 구조를 생성할 수 있다. 액션 데이터 구조는 또한 요청 및 식별된 컨텐츠 제공자(106)에 응답하여 생성될 수 있다. 액션 데이터 구조는 템플리트로부터 또는 템플리트에 기초하여 생성될 수 있다. 템플릿은 트리거 키워드 및 식별된 컨텐츠 제공자(106)에 기초하여 선택될 수 있다. 생성된 액션 데이터 구조는 트리거 키워드와 관련된 액션을 완료하는 것과 관련된 정보 및 데이터를 포함할 수 있다. 예를 들어, "나는 ABC 회사의 셔츠를 원해"에 대해, 템플릿은 셔츠 구매와 관련된 필요한 정보가 크기, 선호 색상, 선호 스타일 및 선호하는 가격 범위를 포함할 수 있음을 나타낼 수 있다. 데이터 처리 시스템(102)은 메모리로부터 검색된 값으로 또는 데이터 처리 시스템(102)으로부터 컴퓨팅 디바이스(104)로 전송된 신호를 출력하기 위한 사용자에 의한 응답에 기초하여 액션 데이터 구조의 필드들을 채울 수 있다. 데이터 처리 시스템(102)은 데이터 처리 시스템(102) 또는 컴퓨팅 디바이스(104)에 저장될 수 있는 보안 지갑으로부터의 사용자 크리덴셜과 같은 보안 필드를 채울 수 있다. 데이터 처리 시스템(102)은 보안 지갑으로부터 정보를 얻기 전에 그 보안 지갑에 액세스할 수 있는 권한을 사용자에게 요청할 수 있다.

방법(200)은 컨텐츠 제공자와 세션을 수립하는 단계를 포함한다(ACT 208). 데이터 처리 시스템(102)은 입력 오디오 신호에서 컨텐츠 제공자(106)를 식별하는 것에 응답하여 컨텐츠 제공자(106)와 통신 세션(322)을 수립할 수 있다. 통신 세션 (322)은 컨텐츠 제공자(106)로부터 디지털 컴포넌트를 수신하도록 수립될 수 있다. 세션은 하이퍼텍스트 전송 프로토콜을 사용하여 수립될 수 있다. 세션은 데이터 처리 시스템(102)으로부터 컨텐츠 제공자(106)로의 요청(324)으로 수립될 수 있다. 요청(324)은 응답(325)에서 요청(324)으로 전송된 웹 페이지에 대한 것일 수 있다.

방법(200)은 수신된 디지털 컴포넌트를 렌더링하는 단계(ACT 210)를 포함한다. 수신된 디지털 컴포넌트는 데이터 처리 시스템(102)의 탐색 컴포넌트(118)에 의해 렌더링될 수 있다. 도 3은 디지털 컴포넌트의 부분 렌더링(300)을 도시한다. 위의 예를 계속하면, 디지털 컴포넌트는 입력 오디오 신호 "나는 ABC 회사의 셔츠를 원해"에 응답하여 수신될 수 있다. 렌더링된 디지털 컴포넌트(300)는 입력 필드(302), 버튼(304), 메뉴, 이미지 필드(306), 이미지(308) 및 텍스트(310)(일반적으로 디지털 컴포넌트의 컴포넌트 또는 요소로 지칭됨)를 포함할 수 있다. 버튼, 링크, 입력 필드 및 라디오 버튼은 일반적으로 입력 요소로 지칭될 수 있다. 디지털 컴포넌트는 그래픽 사용자 인터페이스없이 렌더링될 수 있다. 예를 들어, 디지털 컴포넌트(300)는 헤드리스 브라우저에 의해 렌더링되는 HTML 문서일 수 있다. 탐색 컴포넌트(118)의 헤드리스 브라우저는 디지털 컴포넌트 내의 HTML 및 자바스크립트와 같은 디지털 컴포넌트(300)의 코드를 렌더링할 수 있는 레이아웃 엔진을 포함할 수 있다. 탐색 컴포넌트(118)는 디지털 컴포넌트를 헤드리스 방식으로 렌더링할 때, 디지털 컴포넌트(300)를 탐색 컴포넌트(118)의 머신 비전 컴포넌트로 분석될 수 있는 이미지 파일로 렌더링할 수 있다.

방법(200)은 상호 작용 모델을 선택하는 단계를 포함한다(ACT 212). 탐색 컴포넌트(118)는 컨텐츠 제공자(106)와 관련된 상호 작용 모델을 선택할 수 있다. 탐색 컴포넌트(118)는 2개의 일반 유형의 상호 작용 모델 중에서 선택할 수 있다. 제1 모델은 특정 카테고리와 관련된 각각의 컨텐츠 제공자(106)에 대해 동일할 수 있는 일반 모델(generic model)일 수 있다. 예를 들어, 데이터 처리 시스템(102)은 웹 사이트 쇼핑을 위한 일반 모델; 보험 웹 사이트를 위한 일반 모델; 호텔 예약 웹 사이트를 위한 일반 모델; 그리고 음식 배달 웹 사이트를 위한 일반 모델을 포함할 수 있다. 제2 유형의 모델은 컨텐츠 제공자(106)(또는 컨텐츠 제공자(106)로부터 수신된 디지털 컴포넌트)에 특정적일 수 있다.

또한, 특정 데이터 모델인 제2 모델이 사용될 수도 있다. 예를 들어, 모델은 ABC 회사에 특정적일 수 있다. 제품 액세스를 위한 링크 배치, 특정 메뉴 및 그들을 통한 탐색 방법, 특정 제품이 웹 사이트에 저장 및 분류되는 방법과 같은 특정 또는 특수 기능은 그 특정 모델에 포함된 정보일 수 있다. 탐색 컴포넌트(118)는 모델을 사용하여 디지털 컴포넌트(300)를 해석할 수 있다. 탐색 컴포넌트(118)는 데이터 처리 시스템(102)과 컨텐츠 제공자(106) 사이에 사전 결정된 수의 세션이 수립된 후에 특정 상호 작용 모델을 생성할 수 있다. 예를 들어, 초기에 데이터 처리 시스템(102)은 주어진 컨텐츠 제공자(106)와 상호 작용할 때 일반 모델을 사용할 수 있다. 상호 작용으로부터의 데이터는 특정 상호 작용 모델을 구축하는데 사용될 수 있다. 데이터 처리 시스템(102)이 사전 결정된 수의 세션을 개시하고 컨텐츠 제공자(106)에 대한 특정 모델에 세션 데이터를 추가하면, 데이터 처리 시스템(102)은 컨텐츠 제공자(106)에 대한 특정 상호 작용 모델을 사용하여 시작할 수 있다. 이전에 수립된 세션의 수가 사전 결정된 수미만(below)인 동안, 데이터 처리 시스템(102)은 컨텐츠 제공자(106)와 상호 작용할 때 일반 상호 작용 모델을 계속 사용할 수 있다.

선택된 모델을 사용하여, 탐색 컴포넌트(118)는 디지털 컴포넌트(300)의 저장된 이미지 파일의 머신 비전 분석을 수행함으로써 디지털 컴포넌트(300)의 입력 필드(302), 버튼(304), 메뉴, 이미지 필드(306), 이미지(308) 및 텍스트(310)를 식별할 수 있다. 탐색 컴포넌트(118)는 또한 디지털 컴포넌트(300)의 코드를 파싱함으로써 디지털 컴포넌트(300)의 컴포넌트들을 식별할 수 있다. 예를 들어, 탐색 컴포넌트(118)는 디지털 컴포넌트(300) 내에서 HTML 태그들을 식별할 수 있다. 일 예로서, 탐색 컴포넌트(118)는 입력 필드(302)를 식별하기 위해 HTML 태그 <input> 또는 <form>을 검색할 수 있다.

탐색 컴포넌트(118)가 이미지 또는 버튼을 식별할 때, 탐색 컴포넌트(118)는 이미지 또는 버튼에 대한 머신 비전 분석을 수행하여 그 이미지 또는 버튼의 하나 이상의 특성을 결정할 수 있다. 특성은 이미지 내의 색상의 결정(예를 들어, 이미지(308)에 예시된 셔츠가 빨간 셔츠임), 이미지 내의 객체의 식별(예를 들어, 이미지(308)가 셔츠를 나타냄), 또는 이미지 또는 버튼내의 텍스트 또는 아이콘(예를 들어, 버튼(304)이 "다음(next)"을 나타내는 화살표를 포함하거나 버튼(304)이 "다음"텍스트를 포함한 경우)을 포함할 수 있다.

방법(200)은 상호 작용 모델에 기초하여 데이터 어레이를 생성하는 단계를 포함한다(ACT 214). 데이터 어레이는 상호 작용 모델을 사용하여 디지털 컴포넌트(300)에서 식별된 정보에 기초하여 탐색 컴포넌트(118)에 의해 생성될 수 있다. 데이터 어레이는 액션 데이터 구조로부터의 정보를 사용하여 생성될 수 있다. 예를 들어, 상호 작용 모델을 사용하여, 탐색 컴포넌트(118)는 텍스트(310)가 "크기"를 나타내고 입력 필드(302)와 관련된다고 결정할 수 있다. 액션 데이터 구조에는 "크기" 필드에 "중간(medium)" 항목(entry)이 포함될 수 있다. 탐색 컴포넌트(118)는 데이터 어레이에 "중간"을 포함하고 그 데이터 어레이를 입력 필드(302)에 입력하여, 중간 크기의 셔츠가 선택되어야함을 나타낼 수 있다.

방법(200)은 데이터 어레이를 컨텐츠 제공자에게 전송하는 단계를 포함한다(ACT 216). 데이터 어레이(330)는 입력 필드(302)에 입력될 수 있다. 데이터 어레이(330)는 버튼(304)과 같은 다른 입력 필드를 선택하는 탐색 컴포넌트(118)에 응답하여 컨텐츠 제공자(106)로 전송될 수 있다. 데이터 어레이(330)는 HTTP POST 또는 GET 방법에 응답하여 컨텐츠 제공자(106)로 전송될 수 있다. 데이터 처리 시스템(102)은 입력 오디오 신호에서 식별된 액션을 완료하기 위해 디지털 컴포넌트와 계속 상호 작용할 수 있다. 예를 들어, 도 3에 도시된 예에서, 데이터 처리 시스템(102)은 방법(200)의 ACT(단계)들을 반복하여, 셔츠를 선택하고, 그 셔츠를 체크 아웃하거나 구매하고, 그런 다음 확인을 클라이언트 컴퓨팅 디바이스(102)로 전송할 수 있다.

데이터 처리 시스템(102)은 그 데이터 처리 시스템(102)과 컴퓨팅 디바이스(104) 사이에 통신 세션(322)을 수립할 수 있다. 통신 세션(322)은 대화형 애플리케이션 프로그래밍 인터페이스에 의해 수립될 수 있다. 통신 세션(322)은 실시간, 전후 음성(back-and-forth voice) 또는 오디오 기반 대화 세션일 수 있다. 데이터 처리 시스템(102)은 액션 데이터 구조 또는 데이터 어레이에 대한 추가 정보를 검색하기 위해 컴퓨팅 디바이스(104)와 통신 세션(322)을 수립할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 컴퓨팅 디바이스(104)의 변환기가 "당신의 선호 색은 무엇입니까"라는 음파(sound wave)를 발생시키도록 하는 명령과 함께 출력 오디오 신호(326)를 전송할 수 있다. 사용자는 그 출력 오디오 신호(326)에 응답하여 제2 입력 오디오 신호(328)를 제공할 수 있다. 자연어 처리 컴포넌트(112)는 제2 입력 오디오 신호(328)를 처리하여, 이 예에서는 "빨간색"일 수 있는 사용자의 응답을 식별할 수 있다. 탐색 컴포넌트(118)는 상호 작용 모델 및 상기 제2 입력 오디오 신호(328)에서 식별된 응답에 기초하여 제2 데이터 어레이(332)를 생성할 수 있다. 제2 데이터 어레이(332)는 컨텐츠 제공자(106)에게 전송될 수 있다.

데이터 처리 시스템(102)은 입력 오디오 신호를 원래 전송한 제1 컴퓨팅 디바이스(104)의 사용자와 관련된 제2 컴퓨팅 디바이스(104)와 통신 세션을 수립할 수 있다. 예를 들어, 제1 컴퓨팅 디바이스(104)는 음성-기반 디지털 어시스턴트 스피커 시스템일 수 있고, 제2 컴퓨팅 디바이스(104)는 사용자의 스마트폰일 수 있다. 데이터 처리 시스템(102)은 제2 컴퓨팅 디바이스(104)를 통해 사용자로부터 추가 정보 또는 확인을 요청할 수 있다. 예를 들어, 도 3에 도시된 예에서, 데이터 처리 시스템(102)은 선택된 셔츠의 2개의 이미지를 사용자의 스마트폰에 제공하여, 사용자가 2개의 셔츠 중 하나를 선택하도록 요청할 수 있다. 구매를 완료하거나 예약하기 전에, 데이터 처리 시스템(102)은 제1 컴퓨팅 디바이스(104)를 통한 구두 확인 또는 제2 컴퓨팅 디바이스(104)를 통한 확인(예를 들어, "구매(buy)" 버튼의 선택)을 요청할 수 있다.

도 4는 예시적인 컴퓨터 시스템(400)의 블록도이다. 컴퓨터 시스템 또는 컴퓨팅 디바이스(400)는 시스템(100) 또는 데이터 처리 시스템(102)과 같은 그의 컴포넌트를 포함하거나 구현하기 위해 사용될 수 있다. 데이터 처리 시스템(102)은 지능형 개인 어시스턴트 또는 음성-기반 디지털 어시스턴트를 포함할 수 있다. 컴퓨팅 시스템(400)은 정보를 전달하기 위한 버스(405) 또는 다른 통신 컴포넌트 및 정보를 처리하기 위해 버스(405)에 결합된 프로세서(410) 또는 처리 회로를 포함한다. 컴퓨팅 시스템(400)은 또한 정보를 처리하기 위해 버스에 결합된 하나 이상의 프로세서(410) 또는 처리 회로를 포함할 수 있다. 컴퓨팅 시스템(400)은 또한 정보를 저장하기 위해 버스(405)에 결합된 랜덤 액세스 메모리(RAM) 또는 다른 동적 저장 디바이스와 같은 메인 메모리(415), 및 프로세서(410)에 의해 실행될 명령을 포함한다. 메인 메모리(415)는 데이터 저장소(124)이거나 이를 포함할 수 있다. 메인 메모리(415)는 또한 프로세서(410)에 의한 명령들의 실행 동안 위치 정보, 임시 변수 또는 다른 중간 정보(intermediate information)를 저장하기 위해 사용될 수 있다. 컴퓨팅 시스템(400)은 프로세서(410)에 대한 정적 정보 및 명령들을 저장하기 위해 버스(405)에 연결된 ROM(420) 또는 다른 정적 저장 디바이스를 더 포함할 수 있다. 고체 상태 디바이스, 자기 디스크 또는 광 디스크와 같은 저장 디바이스 (425)는 정보 및 명령들을 지속적으로 저장하기 위해 버스(405)에 결합될 수 있다. 저장 디바이스(425)는 데이터 저장소(124)를 포함하거나 그의 일부일 수 있다.

컴퓨팅 시스템(400)은 버스(405)를 통해 사용자에게 정보를 디스플레이하기 위한, 액정 디스플레이 또는 액티브 매트릭스 디스플레이와 같은 디스플레이(435)에 연결될 수 있다. 정보 및 커맨드 선택을 프로세서(410)로 전달하기 위해 영숫자 및 다른 키를 포함하는 키보드와 같은 입력 디바이스(430)가 버스(405)에 연결될 수 있다. 입력 디바이스(430)는 터치 스크린 디스플레이(435)를 포함할 수 있다. 입력 디바이스(430)는 또한 방향 정보 및 커맨드 선택을 프로세서(410)에 전달하고 디스플레이(435)상의 커서 이동을 제어하기 위한, 마우스, 트랙볼 또는 커서 방향 키와 같은 커서 컨트롤을 포함할 수 있다. 디스플레이(435)는 예를 들어 데이터 처리 시스템(102), 클라이언트 컴퓨팅 디바이스(104) 또는 도 1의 다른 컴포넌트의 일부일 수 있다.

본 명세서에 기술된 프로세스, 시스템 및 방법은 프로세서(410)가 메인 메모리(415)에 포함된 명령들의 배열을 실행하는 것에 응답하여 컴퓨팅 시스템(400)에 의해 구현될 수 있다. 이러한 명령들은 저장 디바이스(425)와 같은 다른 컴퓨터-판독 가능 매체로부터 메인 메모리(415)로 판독될 수 있다. 메인 메모리(415)에 포함된 명령들의 배열의 실행은 컴퓨팅 시스템(400)으로 하여금 본 명세서에 기술된 예시적인 프로세스를 수행하게 한다. 멀티-프로세싱 배열에서 하나 이상의 프로세서가 또한 메인 메모리(415)에 포함된 명령들을 실행하기 위해 사용될 수 있다. 본 명세서에 기술된 시스템 및 방법과 함께 소프트웨어 명령 대신에 또는 소프트웨어 명령과 조합하여 하드-와이어드 회로가 사용될 수 있다. 본 명세서에 기술된 시스템 및 방법은 하드웨어 회로 및 소프트웨어의 임의의 특정 조합으로 제한되지 않는다.

예시적인 컴퓨팅 시스템이 도 4에서 기술되었지만, 본 명세서에서 기술된 동작들을 포함하는 주제는 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 기술된 구조들 및 그들의 구조적 등가물을 포함하는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어로 구현되거나, 이들의 하나 이상의 조합으로 구현될 수 있다.

본 명세서에서 논의된 시스템이 사용자들에 관한 개인 정보를 수집하거나 개인 정보를 이용할 수 있는 상황에서, 사용자는 개인 정보를 수집할 수 있는 프로그램 또는 기능(예컨대, 사용자의 소셜 네트워크, 소셜 액션 또는 활동, 사용자의 선호도 또는 사용자 위치)을 제어하거나, 컨텐츠 서버 또는 사용자에게 더 관련될 수 있는 다른 데이터 처리 시스템으로부터 컨텐츠를 수신하는지 여부 또는 방법을 제어할 수 있는 기회를 제공받을 수 있다. 또한, 특정 데이터는 파라미터들을 생성할 때 개인 식별 정보가 제거될 수 있도록 그것이 저장되거나 사용되기 전에 하나 이상의 방식으로 익명화될 수 있다. 예를 들어, 사용자의 신원은 사용자에 대한 개인 식별 정보가 결정될 수 없도록 익명화될 수 있고, 사용자의 지리적 위치는 사용자의 특정 위치가 결정될 수 없도록 위치 정보가 획득된 곳(예를 들어, 도시, 우편 번호 또는 주 수준)으로 일반화될 수 있다. 따라서, 사용자는 자신에 관한 정보가 수집되고 컨텐츠 서버에 의해 사용되는 방법을 제어할 수 있다.

본 명세서에 기술된 주제및 동작들은 디지털 전자 회로로 구현되거나, 본 명세서에 개시된 구조들 및 이들의 구조적 등가물을 포함하는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어로 구현되거나, 이들의 하나 이상의 조합으로 구현될 수 있다. 본 명세서에 기술된 주제는 하나 이상의 컴퓨터 프로그램, 예를 들어, 하나 이상의 컴퓨터 프로그램 명령들의 회로로서 구현될 수 있고, 데이터 처리 장치에 의해 실행되거나 그의 동작들을 제어하기 위해 하나 이상의 컴퓨터 저장 매체 상에 인코딩된다. 대안적으로 또는 추가적으로, 프로그램 명령들은 인공적으로 생성된 전파 신호, 예를 들어 데이터 처리 장치에 의한 실행을 위해 적합한 수신기 장치로 전송하기 위한 정보를 인코딩하기 위해 생성되는 기계 생성의 전기, 광학 또는 전자기 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 컴퓨터-판독 가능 저장 디바이스, 컴퓨터-판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 어레이 또는 디바이스, 또는 이들 중 하나 이상의 조합일 수 있거나 이에 포함될 수 있다. 컴퓨터 저장 매체는 전파 신호가 아니지만, 컴퓨터 저장 매체는 인위적으로 생성된 전파 신호로 인코딩된 컴퓨터 프로그램 명령들의 소스 또는 목적지일 수 있다. 컴퓨터 저장 매체는 또한 하나 이상의 개별 컴포넌트 또는 매체(예를 들어, 다수의 CD, 디스크 또는 다른 저장 디바이스)일 수 있거나 그에 포함될 수 있다. 본 명세서에서 기술된 동작들은 하나 이상의 컴퓨터-판독 가능 저장 디바이스에 저장되거나 다른 소스로부터 수신된 데이터에 대해 데이터 처리 장치에 의해 수행되는 동작들로서 구현될 수 있다.

"데이터 처리 시스템", "컴퓨팅 디바이스(104)", "컴포넌트" 또는 "데이터 처리 장치"라는 용어는 예를 들어 프로그램 가능 프로세서, 컴퓨터, 칩의 시스템, 또는 다중 칩, 또는 전술한 것의 조합을 포함하여 데이터를 처리하기 위한 다양한 장치, 디바이스 및 기계를 포함한다. 이 장치는 특수 목적 논리 회로, 예를 들어 FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)을 포함할 수 있다. 장치는 또한 하드웨어 외에, 당해 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 크로스-플랫폼 런타임 환경, 가상 머신 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 장치 및 실행 환경은 웹 서비스, 분산 컴퓨팅 및 그리드 컴퓨팅 인프라와 같은 다양한 상이한 컴퓨팅 모델 인프라를 실현할 수 있다. 예를 들어, 다이렉트 액션 API(116), NLP 컴포넌트(112) 및 다른 데이터 처리 시스템(102) 컴포넌트는 하나 이상의 데이터 처리 장치, 시스템, 컴퓨팅 디바이스 또는 프로세서를 포함하거나 공유할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 앱, 스크립트 또는 코드로도 알려짐)은 컴파일된 또는 해석된 언어, 선언적 또는 절차적 언어를 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립형 프로그램 또는 컴퓨팅 환경에서 사용하기에 적합한 모듈, 컴포넌트, 서브 루틴, 객체 또는 다른 유닛을 포함한 모든 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있다. 컴퓨터 프로그램은 다른 프로그램 또는 데이터(예를 들어, 마크 업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하는 파일의 일부, 당해 프로그램 전용의 단일 파일 또는 다중 조정 파일(예를 들어, 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 위치하거나 여러 사이트에 분산되어 있고 통신 네트워크로 상호 연결된 다수의 컴퓨터상에서 실행되도록 배포될 수 있다.

본 명세서에 기술된 프로세스 및 논리 흐름은 입력 데이터에 대해 동작하여 출력을 생성함으로써 액션들을 수행하기 위해 하나 이상의 컴퓨터 프로그램(예를 들어, 데이터 처리 시스템(102)의 컴포넌트들)을 실행하는 하나 이상의 프로그램 가능 프로세서에 의해 수행될 수 있다. 이 프로세스 및 논리 흐름은 또한 FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)과 같은 특수 목적 로직 회로로서 구현될 수 있으며 장치 또는 이들로 구현될 수 있다. 컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 디바이스는 예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스와 같은 반도체 메모리 디바이스, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크 및 CD ROM과 DVD-ROM 디스크를 포함하는 모든 형태의 비 휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보완되거나 이에 통합될 수 있다.

본 명세서에 기술된 주제는 예를 들어 데이터 서버와 같은 백엔드 컴포넌트를 포함하거나, 애플리케이션 서버와 같은 미들웨어 컴포넌트를 포함하거나, 사용자가 컴퓨터 시스템(100) 또는 본 명세서에 기술된 다른 요소들과 상호 작용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터와 같은 프론트 엔드 컴포넌트를 포함하거나, 또는 하나 이상의 이러한 백엔드, 미들웨어 또는 프론트 엔드 컴포넌트의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신, 예를 들어 통신 네트워크에 의해 상호 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 인터-네트워크(예컨대, 인터넷) 및 피어-투-피어 네트워크(예컨대, 애드혹 피어-투-피어 네트워크)를 포한다.

시스템(100)과 같은 컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크(예를 들어, 네트워크(105))를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램으로 인해 발생한다. 서버는 (예를 들어, 컴퓨팅 디바이스(104)와 상호 작용하는 사용자에게 데이터를 디스플레이하고 사용자로부터 사용자 입력을 수신하기 위해) 컴퓨팅 디바이스(104)로 데이터(예를 들어, 컨텐츠 아이템을 나타내는 데이터 패킷)를 전송할 수 있다. 컴퓨팅 디바이스(104)에서 생성된 데이터(예를 들어, 사용자 상호 작용의 결과)는 서버에서 컴퓨팅 디바이스(104)로부터 수신될 수 있다(예를 들어, 컴퓨팅 디바이스(104) 또는 컨텐츠 제공자(106)로부터 데이터 처리 시스템(102)에 의해 수신됨).

특정 순서로 도면에 동작들이 도시되어 있지만, 이러한 동작들은 도시된 특정 순서로 수행되거나 순차적인 순서로 수행될 필요가 없으며, 모든 도시된 동작들이 수행될 것을 요구하는 것은 아니다. 본 명세서에 기술된 액션들은 다른 순서로 수행될 수 있다.

다양한 시스템 컴포넌트의 분리는 모든 구현에서 분리를 요구하는 것은 아니며, 기술된 프로그램 컴포넌트들은 단일 하드웨어 또는 소프트웨어 제품에 포함될 수 있다. 예를 들어, NLP 컴포넌트(112)는 단일 컴포넌트, 앱 또는 프로그램, 또는 하나 이상의 처리 회로를 갖는 논리 디바이스, 또는 데이터 프로세싱 시스템(102)의 하나 이상의 서버의 일부일 수 있다.

이제 몇몇 예시적인 구현예들을 기술하였지만, 전술한 것들은 예시적인 것이며 제한적인 것이 아니라는 것이 명백하다. 특히, 본 명세서에 제시된 다수의 예는 방법 단계들(acts) 또는 시스템 요소들의 특정 조합을 포함하지만, 그러한 단계들 및 요소들은 동일한 목적을 달성하기 위해 다른 방식으로 조합될 수 있다. 하나의 구현예과 관련하여 논의된 단계, 요소 및 특징은 다른 구현예 또는 구현예들에서 유사한 역할로부터 배제되도록 의도되지 않는다.

본 명세서에서 사용된 어구 및 용어는 설명의 목적을 위한 것이며 제한하는 것으로 간주되어서는 안된다. 본 발명에서 "포함하는(including)", "포함하는 (comprising)", "갖는(having)" "포함하는(containg)", "포함하는(involing)", "로 특징된", "인 것을 특징으로 하는"의 사용과 그들의 변형은 이후에 나열된 아이템들, 그 등가물 및 추가 아이템뿐만 아니라 이후에 배타적으로 나열된 아이템들로 구성된 대체 구현예를 포함하는 것을 의미한다. 일 구현예에서, 본 명세서에 기술된 시스템 및 방법은 하나, 하나 이상의 각 조합, 또는 기술된 모든 요소, 단계 또는 컴포넌트로 구성된다.

본 명세서에서 단일로 언급된 시스템 및 방법의 구현예 또는 요소 또는 단계(acts)들에 대한 임의의 언급은 또한 복수의 이들 요소를 포함하는 구현예를 포함할 수 있고, 본 발명에서 임의의 구현예 또는 요소 또는 단계에 대한 임의의 복수의 언급은 또한 단일 요소만 포함하는 구현예들을 포함할 수 있다. 단일 또는 복수 형태의 언급은 현재 개시된 시스템 또는 방법, 그들의 컴포넌트, 단계 또는 요소를 단일 또는 복수 구성으로 제한하려는 것이 아니다. 임의의 정보, 단계 또는 요소에 기초한 임의의 단계 또는 요소에 대한 언급은 그 단계 또는 요소가 임의의 정보, 단계 또는 요소에 적어도 부분적으로 기초하는 구현예를 포함할 수 있다.

본 명세서에 개시된 임의의 구현예는 임의의 다른 구현예 또는 실시예와 결합될 수 있고, "구현예", "일부 구현예", "하나의 구현예"등은 반드시 상호 배타적 일 필요는 없으며, 특정 특징, 구조 또는 그 구현예와 관련하여 기술된 특성이 적어도 하나의 구현예 또는 실시예에 포함될 수 있음을 나타내도록 의도된다. 본 명세서에서 사용된 바와같이 용어들은 반드시 모두 동일한 구현예를 지칭하는 것은 아니다. 본 명세서에 개시된 양태 및 구현예와 일치하는 임의의 방식으로 임의의 다른 구현예와 포괄적으로 또는 배타적으로 결합될 수 있다.

"또는"에 대한 언급은 "또는"을 사용하여 기술된 임의의 용어들이 그 기술된 용어들 중 임의의 하나, 하나 이상 및 모두를 나타낼 수 있도록 포괄적인 것으로 해석될 수 있다. 예를 들어 'A'와 'B'중의 적어도 하나에 대한 언급은 'A', 'B'뿐만 아니라 'A' 및 'B' 모두가 포함될 수 있다. "포함하는" 또는 다른 공개 용어와 함께 사용되는 이러한 언급은 추가 아이템들을 포함할 수 있다.

도면, 상세한 설명 또는 임의의 청구 범위의 기술적 특징 뒤에 참조 부호가 오는 경우, 그 참조 부호는 도면, 상세한 설명 및 청구 범위의 명료도를 증가시키기 위해 포함되었다. 따라서, 참조 부호 또는 이들의 부재는 임의의 청구 요소의 범위에 제한적인 영향을 미치지 않는다.

본 명세서에 기술된 시스템 및 방법은 그 특성을 벗어나지 않고 다른 특정 형태로 구현될 수 있다. 전술한 구현예들은 기술된 시스템 및 방법을 제한하기보다는 예시적인 것이다. 따라서, 본 명세서에 기술된 시스템 및 방법의 범위는 전술한 설명이 아니라 첨부된 청구항들에 의해 표시되며, 청구항들의 의미 및 등가 범위 내에 있는 변화가 그 안에 포함된다.

Claims

음성 활성(voice-activated) 데이터 패킷 기반의 컴퓨터 네트워크 환경에서 디지털 컴포넌트를 검색하는 시스템으로서,
하나 이상의 프로세서를 갖는 데이터 처리 시스템;
요청 및 그 요청을 이행할 컨텐츠 제공자를 식별하기 위해 제1 클라이언트 디바이스의 센서를 통해 획득된 입력 오디오 신호를 파싱하기 위해 데이터 처리 시스템에 의해 실행되는 자연어 프로세서 컴포넌트; 및
데이터 처리 시스템에 의해 실행되는 탐색(navigation) 컴포넌트를 포함하고, 상기 탐색 컴포넌트는:
입력 오디오 신호로부터 식별된 요청을 사용하여 컨텐츠 제공자를 위한 디지털 컴포넌트를 식별하고, 상기 디지털 컴포넌트는 그래픽 사용자 인터페이스를 위한 하나 이상의 입력 엘리먼트를 갖고;
제1 클라이언트 디바이스 또는 제2 클라이언트 디바이스 중 적어도 하나에, 그래픽 사용자 인터페이스의 하나 이상의 입력 엘리먼트를 사용하여 디지털 컴포넌트에 대응하는 이미지를 렌더링하고;
컨텐츠 제공자를 위한 디지털 컴포넌트에 대응하는 이미지에서 하나 이상의 입력 엘리먼트를 식별하기 위해 디지털 컴포넌트에 대한 상호작용 모델을 선택하고;
상호작용 모델에 따라, 이미지에 대응하는 디지털 컴포넌트의 하나 이상의 입력 엘리먼트 중 적어도 하나에 대한 정보를 포함하는 데이터 어레이를 생성하고; 그리고
입력 오디오 신호로부터 식별된 요청을 이행하기 위해 데이터 어레이를 컨텐츠 제공자에게 제공하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
제1 클라이언트 디바이스로, 입력 오디오 신호로부터 식별된 요청을 이행하기 위해 추가 정보를 검색하기 위해 출력 오디오 신호를 제공하는 탐색 컴포넌트;
제1 클라이언트 디바이스와 설정된 통신 세션을 통해, 출력 오디오 신호의 제공에 후속하여 제1 클라이언트 디바이스의 센서를 통해 획득된 제2 입력 오디오 신호를 수신하기 위해 데이터 처리 시스템에 의해 실행되는 대화형 애플리케이션 프로그래밍 인터페이스;
응답을 식별하기 위해 제2 입력 오디오 신호를 파싱하기 위한 자연어 프로세서 컴포넌트; 및
상호작용 모델에 따라, 디지털 컴포넌트의 하나 이상의 입력 엘리먼트 중 적어도 하나에 대한 응답을 포함하는 제2 데이터 어레이를 생성하기 위한 탐색 컴포넌트를 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
상기 네비게이션 컴포넌트는,
제1 클라이언트 디바이스와 연관된 제2 클라이언트 디바이스에, 그래픽 사용자 인터페이스의 하나 이상의 입력 엘리먼트를 사용하여 디지털 컴포넌트에 대응하는 이미지를 렌더링하고;
제2 클라이언트 디바이스를 통해, 그래픽 사용자 인터페이스의 디지털 컴포넌트의 입력 엘리먼트들 중 적어도 하나와의 상호작용을 수신하고; 그리고
상호작용 모델에 따라, 디지털 컴포넌트와의 상호작용에 대응하는 데이터를 사용하여 제2 데이터 어레이를 생성하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
상기 탐색 컴포넌트는 트레이닝 데이터를 사용하여, 선택할 복수의 상호작용 모델을 설정하고, 상기 복수의 상호작용 모델은,
액션 카테고리에 대해 정의된 첫 번째 상호작용 모델,
복수의 컨텐츠 제공자 중 대응하는 컨텐츠 제공자에 대해 정의된 제2 상호작용 모델, 및
복수의 디지털 컴포넌트의 대응하는 디지털 컴포넌트에 대해 정의된 제3 상호작용 모델을 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
상기 네비게이션 컴포넌트는,
클라이언트 디바이스와 컨텐츠 제공자 또는 디지털 컴포넌트 중 적어도 하나 사이의 이전 세션의 수를 식별하고; 그리고
복수의 상호작용 모델 중에서, 이전 세션의 수에 기초하여 디지털 컴포넌트에 대한 상호작용 모델을 선택하고, 상기 복수의 상호작용 모델은 이전 세션의 수가 임계수보다 작거나 같다는 결정에 응답하여 선택되는 제1 상호작용 모델 및 이전 세션의 수가 임계수보다 크다는 결정에 응답하여 선택되는 제2 상호작용 모델을 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
상기 네비게이션 컴포넌트는,
디지털 컴포넌트와 관련된 액션 카테고리를 식별하기 위해 컨텐츠 제공자에 대해 식별된 디지털 컴포넌트의 컨텐츠를 파싱하고; 그리고
복수의 상호작용 모델로부터, 액션 카테고리에 기초하여 디지털 컴포넌트에 대한 상호작용 모델을 선택하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
상기 네비게이션 컴포넌트는,
입력 오디오 신호로부터 식별된 요청을 사용하여 디지털 컴포넌트를 식별하고, 상기 디지털 컴포넌트는 하나 이상의 입력 엘리먼트 중 임의의 것과의 음성 기반 상호작용을 수용할 수 없으며; 그리고
그래픽 사용자 인터페이스의 하나 이상의 입력 엘리먼트를 사용하여 디지털 컴포넌트에 대응하는 이미지를 헤드리스(headlessly) 렌더링하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
상기 네비게이션 컴포넌트는,
입력 오디오 신호로부터 컨텐츠 제공자의 식별에 응답하여, 컨텐츠 제공자와의 통신 세션을 설정하고; 그리고
통신 세션을 통해, 입력 오디오 신호로부터 식별된 요청을 사용하여 컨텐츠 제공자로부터 디지털 컴포넌트를 수신하고, 상기 디지털 컴포넌트는 비-오디오 엘리먼트를 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
상기 탐색 컴포넌트는,
디지털 컴포넌트에 대한 그래픽 사용자 인터페이스의 하나 이상의 입력 엘리먼트를 식별하기 위해 디지털 컴포넌트에 대응하는 스크립트를 파싱하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
상기 탐색 컴포넌트는,
머신 비전 분석을 사용하여, 디지털 컴포넌트에 대한 그래픽 사용자 인터페이스로부터의 하나 이상의 입력 엘리먼트를 식별하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
입력 오디오 신호의 파싱에 기초하여, 액션 데이터 구조를 생성하기 위해 데이터 처리 시스템에 의해 실행되는 다이렉트 액션 애플리케이션 프로그래밍 인터페이스를 포함하고; 그리고
상기 탐색 컴포넌트는 요청을 이행하기 위해 컨텐츠 제공자에게 제공할 액션 데이터 구조를 포함하는 데이터 어레이를 생성하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
제1항에 있어서,
상기 자연어 프로세서 컴포넌트는,
요청을 정의하는 트리거 키워드를 식별하기 위해 입력 오디오 신호를 파싱하고, 그리고
요청 또는 트리거 키워드 중 적어도 하나에 기초하여 통신할 컨텐츠 제공자를 식별하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 시스템.
음성 활성 데이터 패킷 기반의 컴퓨터 네트워크 환경에서 디지털 컴포넌트를 검색하는 방법으로서,
하나 이상의 프로세서를 갖는 데이터 처리 시스템에 의해, 요청 및 그 요청을 이행할 컨텐츠 제공자를 식별하기 위해 제1 클라이언트 디바이스의 센서를 통해 획득된 입력 오디오 신호를 파싱하는 단계;
데이터 처리 시스템에 의해, 입력 오디오 신호로부터 식별된 요청을 사용하여 컨텐츠 제공자를 위한 디지털 컴포넌트를 식별하는 단계, 상기 디지털 컴포넌트는 그래픽 사용자 인터페이스를 위한 하나 이상의 입력 엘리먼트를 갖고
제1 클라이언트 디바이스 또는 제2 클라이언트 디바이스 중 적어도 하나에, 그래픽 사용자 인터페이스의 하나 이상의 입력 엘리먼트를 사용하여 디지털 컴포넌트에 대응하는 이미지를 렌더링하는 단계;
데이터 처리 시스템에 의해, 컨텐츠 제공자를 위한 디지털 컴포넌트에 대응하는 이미지에서 하나 이상의 입력 엘리먼트를 식별하기 위해 디지털 컴포넌트에 대한 상호작용 모델을 선택하는 단계;
데이터 처리 시스템에 의해, 상호작용 모델에 따라, 이미지에 대응하는 디지털 컴포넌트의 하나 이상의 입력 엘리먼트 중 적어도 하나에 대한 정보를 포함하는 데이터 어레이를 생성하는 단계; 및
데이터 처리 시스템에 의해, 입력 오디오 신호로부터 식별된 요청을 이행하기 위해 데이터 어레이를 컨텐츠 제공자에게 제공하는 단계를 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 방법.
제13항에 있어서,
데이터 처리 시스템에 의해, 입력 오디오 신호로부터 식별된 요청을 이행하기 위해 추가 정보를 검색하기 위해 출력 오디오 신호를 제1 클라이언트 디바이스에 제공하는 단계;
데이터 처리 시스템에 의해, 제1 클라이언트 디바이스와 설정된 통신 세션을 통해, 출력 오디오 신호의 제공에 후속하여 제1 클라이언트 디바이스의 센서를 통해 획득된 제2 입력 오디오 신호를 수신하는 단계;
데이터 처리 시스템에 의해, 응답을 식별하기 위해 제2 입력 오디오 신호를 파싱하는 단계; 및
데이터 처리 시스템에 의해, 상호작용 모델에 따라, 디지털 컴포넌트의 하나 이상의 입력 엘리먼트 중 적어도 하나에 대한 응답을 포함하는 제2 데이터 어레이를 생성하는 단계를 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 방법.
제13항에 있어서,
제1 클라이언트 디바이스와 관련된 제2 클라이언트 디바이스에, 그래픽 사용자 인터페이스의 하나 이상의 입력 엘리먼트를 사용하여 디지털 컴포넌트에 대응하는 이미지를 렌더링하는 단계;
제2 클라이언트 디바이스를 통해, 그래픽 사용자 인터페이스의 디지털 컴포넌트의 입력 엘리먼트들 중 적어도 하나와의 상호작용을 수신하는 단계; 및
데이터 처리 시스템에 의해, 상호작용 모델에 따라, 디지털 컴포넌트와의 상호작용에 대응하는 데이터를 사용하여 제2 데이터 어레이를 생성하는 단계를 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 방법.
제13항에 있어서,
데이터 처리 시스템에 의해, 트레이닝 데이터를 사용하여, 선택할 복수의 상호작용 모델을 설정하는 단계를 포함하고, 상기 복수의 상호작용 모델은:
액션 카테고리에 대해 정의된 제1 상호작용 모델,
복수의 컨텐츠 제공자 중 대응하는 컨텐츠 제공자에 대해 정의된 제2 상호작용 모델, 및
복수의 디지털 컴포넌트의 대응하는 디지털 컴포넌트에 대해 정의된 제3 상호작용 모델을 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 방법.
제13항에 있어서,
데이터 처리 시스템에 의해, 클라이언트 디바이스와 컨텐츠 제공자 또는 디지털 컴포넌트 중 적어도 하나 사이의 이전 세션의 수를 식별하는 단계; 및
데이터 처리 시스템에 의해, 복수의 상호작용 모델 중에서, 이전 세션의 수에 기초하여 디지털 컴포넌트에 대한 상호작용 모델을 선택하는 단계를 포함하고, 상기 복수의 상호작용 모델은 이전 세션의 수가 임계수보다 작거나 같다는 결정에 응답하여 선택되는 제1 상호작용 모델 및 이전 세션의 수가 임계수보다 크다는 결정에 응답하여 선택되는 제2 상호작용 모델을 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 방법.
제13항에 있어서,
데이터 처리 시스템에 의해, 디지털 컴포넌트와 관련된 액션 카테고리를 식별하기 위해 컨텐츠 제공자에 대해 식별된 디지털 컴포넌트의 컨텐츠를 파싱하는 단계; 및
데이터 처리 시스템에 의해, 복수의 상호작용 모델로부터, 액션 카테고리에 기초하여 디지털 컴포넌트에 대한 상호작용 모델을 선택하는 단계를 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 방법.
제13항에 있어서,
데이터 처리 시스템에 의해, 입력 오디오 신호로부터 컨텐츠 제공자의 식별에 응답하여, 컨텐츠 제공자와의 통신 세션을 설정하는 단계; 및
데이터 처리 시스템에 의해, 통신 세션을 통해, 입력 오디오 신호로부터 식별된 요청을 사용하여 컨텐츠 제공자로부터 디지털 컴포넌트를 수신하는 단계를 포함하고, 상기 디지털 컴포넌트는 비-오디오 엘리먼트를 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 방법.
제13항에 있어서,
데이터 처리 시스템에 의해, 입력 오디오 신호의 파싱에 기초하여, 액션 데이터 구조를 생성하는 단계; 및
데이터 처리 시스템에 의해, 요청을 이행하기 위해 컨텐츠 제공자에게 제공할 액션 데이터 구조를 포함하는 데이터 어레이를 생성하는 단계를 포함하는 것을 특징으로 하는 디지털 컴포넌트를 검색하는 방법.