KR102433255B1 - 네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색 - Google Patents

네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색 Download PDF

Info

Publication number
KR102433255B1
KR102433255B1 KR1020207028940A KR20207028940A KR102433255B1 KR 102433255 B1 KR102433255 B1 KR 102433255B1 KR 1020207028940 A KR1020207028940 A KR 1020207028940A KR 20207028940 A KR20207028940 A KR 20207028940A KR 102433255 B1 KR102433255 B1 KR 102433255B1
Authority
KR
South Korea
Prior art keywords
component
digital
digital component
parsing
breakpoints
Prior art date
Application number
KR1020207028940A
Other languages
English (en)
Other versions
KR20200130400A (ko
Inventor
마소우드 로그마니
안슐 코타리
아난트 데부라팔리
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Priority to KR1020227027672A priority Critical patent/KR102619568B1/ko
Publication of KR20200130400A publication Critical patent/KR20200130400A/ko
Application granted granted Critical
Publication of KR102433255B1 publication Critical patent/KR102433255B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/745Browsing; Visualisation therefor the internal structure of a single video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 기술 솔루션의 시스템 및 방법은 디지털 어시스턴트와 같은 음성 기반 디바이스를 위한 멀티-모달 인터페이스를 가능하게 한다. 이 솔루션을 통해 사용자가 터치 인터페이스 및 음성 명령을 통해 비디오 및 다른 컨텐츠와 상호 작용할 수 있다. 정지 및 재생과 같은 입력 외에도 본 솔루션은 디스플레이된 비디오 파일에 대한 주석을 자동으로 생성할 수도 있다. 주석으로부터 솔루션은 비디오의 다른 장면, 비디오 부분 또는 방법 단계와 연관된 하나 이상의 중단점을 식별할 수 있다. 디지털 어시스턴트는 입력 오디오 신호를 수신하고 입력 오디오 신호를 파싱하여 입력 오디오 신호 내의 시맨틱 엔티티를 식별할 수 있다. 디지털 어시스턴트는 식별된 시맨틱 엔티티를 주석에 매핑하여 입력 오디오 신호에서 사용자 요청에 해당하는 비디오 부분을 선택할 수 있다.

Description

네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색
본 출원은 "음성 작동(voice-activated) 네트워크에서의 다중-모달 인터페이스"라는 제목으로 2018년 5월 7일에 출원된 미국 가출원 번호 15/973,447에 대한 우선권을 주장하며, 이는 그 전체가 참조로 본 명세서에 포함된다.
컴퓨팅 디바이스는 네트워크로 연결된 클라이언트 디바이스에 디지털 컨텐츠를 제공할 수 있다. 제공된 디지털 컨텐츠 내의 특정 위치 또는 컨텐츠를 찾기 위해 과도한 네트워크 전송이 필요할 수 있다. 추가 음성 기반 인터페이스는 디지털 컨텐츠 내의 특정 위치로 이동하지 못할 수 있는데, 이는 디지털 컨텐츠의 엔티티가 네트워크 클라이언트 디바이스로 전송될 때 네트워크 리소스를 낭비할 수 있다.
본 개시의 적어도 하나의 양태에 따르면, 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템은 데이터 처리 시스템을 포함할 수 있다. 데이터 처리 시스템은 하나 이상의 프로세서와 메모리를 포함할 수 있다. 데이터 처리 시스템은 자연어 프로세서("NLP") 컴포넌트, 주석 컴포넌트 및 파싱 컴포넌트를 실행할 수 있다. 자연어 프로세서 컴포넌트는 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출되는 제1 입력 오디오 신호를 수신할 수 있다. 자연어 프로세서 컴포넌트는 제1 입력 오디오 신호를 파싱하여 제1 입력 오디오 신호에서 제1 디지털 컴포넌트 요청을 식별할 수 있다. 주석 컴포넌트는 적어도 제1 디지털 컴포넌트에서 인식된 음성에 기초하여 제1 디지털 컴포넌트의 제1 주석 세트를 생성할 수 있다. 파싱 컴포넌트는 적어도 제1 주석 세트에 기초하여 복수의 중단점을 식별할 수 있다. 자연어 프로세서 컴포넌트는 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출되는 제2 입력 오디오 신호를 수신할 수 있다. 자연어 프로세서 컴포넌트는 제2 입력 오디오 신호를 파싱하여 제2 입력 오디오 신호에서 용어를 식별할 수 있다. 파싱 컴포넌트는 용어에 기초하여 복수의 중단점에서 중단점을 선택할 수 있다. 파싱 컴포넌트는 중단점에 대응하는 제1 디지털 컴포넌트의 일부를 전송할 수 있다.
시스템은 복수의 중단점으로부터 선택된 중단점에 기초하여 제2 디지털 컴포넌트를 선택하고 중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 클라이언트 컴퓨팅 디바이스로 제2 디지털 컴포넌트를 전송하기 위한 컨텐츠 선택 컴포넌트를 더 포함할 수 있다. 주석 컴포넌트는 디지털 컴포넌트 내의 이미지에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성할 수 있고, 파싱 컴포넌트는 제2 주석 세트에 기초하여 복수의 중단점을 식별할 수 있다.
주석 컴포넌트는 디지털 컴포넌트의 폐쇄형 자막 데이터에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성할 수 있다. 주석 컴포넌트는 제2 클라이언트 컴퓨팅 디바이스로부터 제1 디지털 컴포넌트의 제2 주석 세트을 수신할 수 있다. 파싱 컴포넌트는 제2 주석 세트에 기초하여 복수의 중단점을 식별할 수 있다. 파싱 컴포넌트는 디지털 컴포넌트에서 장면 전환을 식별하고 장면 전환에 기초하여 복수의 중단점을 식별할 수 있다.
자연어 프로세서 컴포넌트는 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제3 입력 오디오 신호를 수신하고, 제3 입력 오디오 신호를 파싱하여 복수의 중단점 중 제2 중단점의 표시를 식별할 수 있으며, 파싱 컴포넌트는 제2 중단점에 대응하는 제1 디지털 컴포넌트의 제2 부분을 클라이언트 컴퓨팅 디바이스로 전송할 수 있다. 자연어 프로세서 컴포넌트는 제1 입력 오디오 신호를 파싱하여 제1 입력 오디오 신호에서 제1 시맨틱(의미적) 표현을 식별할 수 있고, 파싱 컴포넌트는 제1 시맨틱 의미에 기초하여 복수의 중단점로부터 중단점을 선택할 수 있다. 파싱 컴포넌트는 복수의 중단점에 기초하여 제1 디지털 컴포넌트의 복수의 부분을 생성할 수 있고, 제1 디지털 컴포넌트의 복수의 부분 각각에 대한 시맨틱 표현을 결정할 수 있다.
주석 컴포넌트는 제1 디지털 컴포넌트의 복수의 부분 각각에 대한 시맨틱 표현에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성할 수 있고, 파싱 컴포넌트는 제2 주석 세트에 기초하여 복수의 중단점을 식별할 수 있다. 복수의 중단점 각각은 다른 장면의 시작점에 대응할 수 있다. 파싱 컴포넌트는 복수의 중단점 각각의 표시를 포함하는 제2 디지털 컴포넌트를 생성하고, 중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 프리젠테이션을 위해 클라이언트 컴퓨팅 디바이스로 제2 디지털 컴포넌트를 전송할 수 있다. 자연어 프로세서 컴포넌트는 클라이언트 복수의 중단점 중 하나의 선택을 포함하는 제3 입력 오디오 신호를 컴퓨팅 디바이스로부터 수신할 수 있으며, 파싱 컴포넌트는 복수의 중단점 중 하나의 선택에 기초하여 복수의 중단점로부터 중단점을 선택할 수 있다.
본 개시의 적어도 하나의 양태에 따르면, 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법은 데이터 처리 시스템에 의해 실행되는 자연어 프로세서 컴포넌트에 의해 그 데이터 처리 시스템의 인터페이스를 통해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제1 입력 오디오 신호를 수신하는 단계를 포함할 수 있다. 방법은 자연어 프로세서 컴포넌트에 의해, 제1 입력 오디오 신호에서 제1 디지털 컴포넌트 요청을 식별하도록 제1 입력 오디오 신호를 파싱하는 단계를 포함할 수 있다. 방법은 주석 컴포넌트에 의해, 적어도 제1 디지털 컴포넌트에서 인식된 음성에 기초하여 제1 디지털 컴포넌트의 제1 주석 세트를 생성하는 단계를 포함할 수 있다. 방법은 데이터 처리 시스템에 의해 실행되는 파싱 컴포넌트에 의해, 적어도 제1 주석 세트에 기초하여 복수의 중단점을 식별하는 단계를 포함할 수 있다. 방법은 자연어 프로세서 컴포넌트에 의해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제2 입력 오디오 신호를 수신하는 단계를 포함할 수 있다. 방법은 자연어 프로세서 컴포넌트에 의해, 제2 입력 오디오 신호에서 용어를 식별하도록 제2 입력 오디오 신호를 파싱하는 단계를 포함할 수 있다. 방법은 파싱 컴포넌트에 의해, 용어에 기초하여 복수의 중단점으로부터 중단점을 선택하는 단계를 포함할 수 있다. 방법은 파싱 컴포넌트에 의해 클라이언트 컴퓨팅 디바이스로, 중단점에 대응하는 제1 디지털 컴포넌트의 일부를 전송하는 단계를 포함할 수 있다.
방법은 데이터 처리 시스템에 의해 실행되는 컨텐츠 선택 컴포넌트에 의해, 복수의 중단점로부터 선택된 중단점에 기초하여 제2 디지털 컴포넌트를 선택하는 단계; 및 컨텐츠 선택 컴포넌트에 의해, 중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 제2 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스로 전송하는 단계를 더 포함할 수 있다. 방법은 주석 컴포넌트에 의해, 디지털 컴포넌트의 이미지에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성하는 단계; 및 파싱 컴포넌트에 의해, 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 단계를 더 포함할 수 있다.
방법은 주석 컴포넌트에 의해, 디지털 컴포넌트의 폐쇄형 자막 데이터에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트을 생성하는 단계를 더 포함할 수 있다. 방법은 주석 컴포넌트에 의해, 제2 클라이언트 컴퓨팅 디바이스로부터 제1 디지털 컴포넌트의 제2 주석 세트를 수신하는 단계; 및 파싱 컴포넌트에 의해, 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 단계를 더 포함할 수 있다. 방법은 파싱 컴포넌트에 의해, 디지털 컴포넌트에서 장면 전환을 식별하는 단계; 및 파싱 컴포넌트에 의해, 장면 전환에 기초하여 복수의 중단점을 식별하는 단계를 더 포함할 수 있다.
방법은, 자연어 프로세서 컴포넌트에 의해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제3 입력 오디오 신호를 수신하는 단계; 자연어 프로세서 컴포넌트에 의해, 제3 입력 오디오 신호를 분석하여 복수의 중단점 중 제2 중단점의 표시를 식별하는 단계; 및 파싱 컴포넌트에 의해 클라이언트 컴퓨팅 디바이스로, 제2 중단점에 대응하는 제1 디지털 컴포넌트의 제2 부분을 전송하는 단계를 더 포함할 수 있다. 방법은 자연어 프로세서 컴포넌트에 의해, 제1 입력 오디오 신호를 파싱하여 제1 입력 오디오 신호에서 제1 시맨틱 표현을 식별하는 단계; 및 파싱 컴포넌트에의해 제1 시맨틱 의미에 기초하여 복수의 중단점으로부터 중단점을 선택하는 단계를 더 포함할 수 있다.
방법은 파싱 컴포넌트에 의해, 복수의 중단점에 기초하여 제1 디지털 컴포넌트의 복수의 부분을 생성하는 단계; 및 파싱 컴포넌트에 의해, 제1 디지털 컴포넌트의 복수의 부분 각각에 대한 시맨틱 표현을 결정하는 단계를 더 포함할 수 있다. 방법은 주석 컴포넌트에 의해, 제1 디지털 컴포넌트의 복수의 부분 각각에 대한 시맨틱 표현에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성하는 단계; 및 파싱 컴포넌트에 의해 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 단계를 더 포함할 수 있다.
복수의 중단점 각각은 다른 장면의 시작에 대응할 수 있다. 방법은 파싱 컴포넌트에 의해, 복수의 중단점 각각의 표시를 포함하는 제2 디지털 컴포넌트를 생성하는 단계; 및 파싱 컴포넌트에 의해, 중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 프리젠테이션을 위해 제2 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스로 전송하는 단계를 더 포함할 수 있다. 방법은 자연어 프로세서 컴포넌트에 의해, 클라이언트 컴퓨팅 디바이스로부터 복수의 중단점 중 하나의 선택을 포함하는 제3 입력 오디오 신호를 수신하는 단계; 및 파싱 컴포넌트에 의해, 복수의 중단점 중 하나의 선택에 기초하여 복수의 중단점로부터 중단점을 선택하는 단계를 더 포함할 수 있다.
이들 및 다른 양태들 및 구현들은 아래에서 상세히 논의된다. 전술한 정보 및 다음의 상세한 설명은 다양한 양태 및 구현의 예시적인 예를 포함하고 청구된 양태 및 구현의 특성 및 특징을 이해하기 위한 개요 또는 프레임 워크를 제공한다. 도면은 다양한 양태 및 구현에 대한 예시와 추가 이해를 제공하며 본 명세서에 통합되어 그 일부를 구성한다. 개시된 주제의 양태 및 실시예는 적절한 경우 결합될 수 있다.
첨부된 도면은 일정한 비율로 그려지지 않았다. 다양한 도면에서 참조 번호와 명칭은 동일한 요소를 나타낸다. 명확성을 위해 모든 도면에서 모든 컴포넌트에 레이블이 지정되지는 않는다.
도 1은 본 개시의 예에 따른 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 예시적인 시스템을 도시한다.
도 2는 본 개시의 예에 따른 시간에 따른 디지털 컴포넌트의 예시적인 표현의 블록도를 예시한다.
도 3은 본 개시의 예에 따른 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 예시적인 방법의 블록도를 예시한다.
도 4는 본 개시의 예에 따른 도 3에 예시된 방법 동안 제1 시점 및 제2 시점 동안 클라이언트 컴퓨팅 디바이스를 예시한다.
도 5는 본 개시의 예에 따른 예시적인 컴퓨터 시스템의 블록도를 예시한다.
다음은 보안 처리 환경에서 데이터를 전송하는 방법, 장치 및 시스템과 관련된 다양한 개념에 대한 더 상세한 설명이다. 위에서 소개되고 아래에서 더 상세히 논의되는 다양한 개념은 임의의 다양한 방식으로 구현될 수 있다.
본 개시는 일반적으로 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 것에 관한 것이다. 비디오(영상)를 제시하기 위한 인터페이스에는 전기 기계식 재생 디바이스(예를 들어, VCR)를 모방하는 입력이 포함될 수 있으며 정지, 재생, 빨리 감기 및 되감기와 같은 버튼이 포함될 수 있다. 이러한 제한된 입력 및 음성 작동 시스템과 상호 작용하는 것은 어려울 수 있다. 또한, 비디오 컨텐츠와의 상호 작용의 어려움은 사용자가 비디오 컨텐츠의 일부만 선택하여 시청하기 어렵게 만든다. 비디오 컨텐츠의 원하는 부분만 찾고 시청하는데 어려움이 있으면 최종 사용자가 필요한 부분이 아닌 전체 비디오 컨텐츠를 자주 시청하거나 다운로드할 수 있으므로 계산 및 네트워크 낭비가 발생할 수 있다.
본 기술 솔루션의 시스템 및 방법은 디지털 어시스턴트와 같은 음성 기반 디바이스를 위한 멀티-모달 인터페이스를 가능하게 한다. 이 솔루션은 사용자가 터치 인터페이스 및 음성 명령을 통해 비디오 및 다른 컨텐츠와 상호 작용할 수 있게 한다. 정지 및 재생과 같은 입력에 추가하여, 현재 솔루션은 디스플레이된 비디오 파일에 대한 주석을 자동으로 생성할 수도 있다. 주석으로부터, 솔루션은 비디오의 다른 장면, 비디오 부분 또는 방법 단계와 연관된 하나 이상의 중단점(break points)을 식별할 수 있다. 디지털 어시스턴트는 입력 오디오 신호를 수신하고 입력 오디오 신호를 파싱하여 입력 오디오 신호 내의 시맨틱(의미적) 엔티티를 식별할 수 있다. 디지털 어시스턴트는 식별된 시맨틱 엔티티를 주석에 매핑하여, 입력 오디오 신호에서 사용자 요청에 대응하는 비디오 부분을 선택할 수 있다. 그런 다음 디지털 어시스턴트는 비디오의 선택한 부분으로 점프할 수 있다. 음성 기반 디지털 어시스턴트의 사용자가 비디오 내의 특정 컨텐츠를 검색할 수 있게 하는 것은 사용자가 비디오의 요청된 부분으로 스킵할 수 있도록 하여 뛰어 전체 비디오가 아닌 네트워크를 통해 비디오의 일부만 전송할 수 있도록 함으로써 계산 및 네트워크 리소스를 줄일 수 있다. 본 솔루션은 또한 사용자에게 음성 기반 디바이스에서 비디오와 상호 작용하기 위한 새롭고 개선된 사용자 인터페이스를 제공하여 인간-기계 상호 작용 프로세스를 개선한다.
도 1은 음성 작동 시스템에서 디지털 컴포넌트를 제어하기 위한 예시적인 시스템(100)을 도시한다. 시스템(100)은 디지털 컴포넌트 선택 인프라를 포함할 수 있다. 시스템(100)은 데이터 처리 시스템(102)을 포함할 수 있다. 데이터 처리 시스템(102)은 네트워크(105)를 통해 디지털 컴포넌트 제공자 디바이스(106)(예를 들어, 컨텐츠 제공자 디바이스) 또는 클라이언트 컴퓨팅 디바이스(104) 중 하나 이상과 통신할 수 있다. 네트워크(105)는 인터넷, 로컬, 광역, 메트로 또는 기타 영역 네트워크, 인트라넷, 위성 네트워크, 및 음성 또는 데이터 이동 전화 네트워크와 같은 다른 통신 네트워크와 같은 컴퓨터 네트워크를 포함할 수 있다. 네트워크(105)는 랩탑, 데스크탑, 태블릿, 디지털 어시스턴트, 개인용 디지털 어시스턴트, 스마트 워치, 웨어러블 디바이스, 스마트 폰, 휴대용 컴퓨터 또는 스피커와 같은 적어도 하나의 컴퓨팅 디바이스(104)상에 제시, 출력, 렌더링 또는 디스플레이될 수 있는 웹 페이지, 웹 사이트, 도메인 이름 또는 URL과 같은 정보 리소스에 액세스하는데 사용될 수 있다. 예를 들어, 네트워크(105)를 통해 클라이언트 컴퓨팅 디바이스(104)의 사용자는 디지털 컴포넌트 제공자 디바이스(106)에 의해 제공된 정보 또는 데이터에 액세스할 수 있다. 클라이언트 컴퓨팅 디바이스(104)는 디스플레이를 포함하거나 포함하지 않을 수 있다. 예를 들어, 클라이언트 컴퓨팅 디바이스(104)는 마이크로폰 및 스피커와 같은 제한된 유형의 사용자 인터페이스를 포함할 수 있다(예를 들어, 클라이언트 컴퓨팅 디바이스(104)는 음성 드라이브 또는 오디오 기반 인터페이스를 포함할 수 있음). 컴퓨팅 디바이스(104)의 주 사용자 인터페이스는 마이크로폰 및 스피커일 수 있다.
네트워크(105)는 디스플레이 네트워크, 예를 들어 컨텐츠 배치 또는 검색 엔진 결과 시스템과 연관되거나 제3자 디지털 컴포넌트를 포함할 수 있는 인터넷상에서 이용 가능한 정보 자원의 서브 세트를 포함하거나 구성할 수 있다. 네트워크(105)는 데이터 처리 시스템(102)에 의해 사용되어, 클라이언트 컴퓨팅 디바이스(104)에 의해 제시, 출력, 렌더링 또는 디스플레이될 수 있는 웹 페이지, 웹 사이트, 도메인 이름, 또는 URL과 같은 정보 리소스에 액세스할 수 있다. 예를 들어, 네트워크(105)를 통해 클라이언트 컴퓨팅 디바이스(104)의 사용자는 디지털 컴포넌트 제공자 디바이스(106)에 의해 제공된 정보 또는 데이터에 액세스할 수 있다.
네트워크(105)는 포인트 투 포인트 네트워크, 브로드 캐스트 네트워크, 광역 네트워크, 근거리 통신망, 통신 네트워크, 데이터 통신 네트워크, 컴퓨터 네트워크, ATM(Asynchronous Transfer Mode) 네트워크, SONET(Synchronous Optical Network) 네트워크, SDH(Synchronous Digital Hierarchy) 네트워크, 무선 네트워크 및 유선 네트워크와 같은 모든 유형 또는 형태의 네트워크 중 임의의 것을 포함할 수 있는 임의의 유형 또는 형태의 테으워크일 수 있다. 네트워크(105)는 적외선 채널 또는 위성 대역과 같은 무선 링크를 포함할 수 있다. 네트워크(105)의 토폴로지는 버스, 별 또는 링 네트워크 토폴로지를 포함할 수 있다. 네트워크는 개선된 이동 전화 프로토콜("AMPS"), 시분할 다중 액세스("TDMA"), 코드 분할 다중 액세스 ("CDMA"), 글로벌 이동 통신 시스템("GSM"), 일반 패킷 무선 서비스("GPRS") 또는 범용 이동 통신 시스템("UMTS")를 포함하여 모바일 디바이스간에 통신하는데 사용되는 프로토콜 또는 프로토콜들을 사용하는 이동 전화 네트워크를 포함할 수 있다. 서로 다른 유형의 데이터가 서로 다른 프로토콜을 통해 전송되거나 동일한 유형의 데이터가 서로 다른 프로토콜을 통해 전송될 수 있다.
시스템(100)은 적어도 하나의 데이터 처리 시스템(102)을 포함할 수 있다. 데이터 처리 시스템(102)은 네트워크(105)를 통해 예를 들어 컴퓨팅 디바이스(104) 또는 디지털 컴포넌트 제공자 디바이스(106)와 통신하는 프로세서를 갖는 컴퓨팅 디바이스와 같은 적어도 하나의 논리 디바이스를 포함할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 계산 리소스, 서버, 프로세서 또는 메모리를 포함할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 적어도 하나의 데이터 센터에 위치한 복수의 계산 리소스 또는 서버를 포함할 수 있다. 데이터 처리 시스템(102)은 논리적으로 그룹화된 다수의 서버를 포함하여 분산 컴퓨팅 기술을 용이하게 할 수 있다. 논리적 서버 그룹은 데이터 센터, 서버 팜 또는 머신 팜으로 지칭될 수 있다. 서버는 지리적으로 분산될 수도 있다. 데이터 센터 또는 머신 팜은 단일 엔티티로 관리될 수 있고 머신 팜은 복수의 머신 팜을 포함할 수 있다. 각 머신 팜 내의 서버는 이기종일 수 있고, 하나 이상의 서버 또는 머신은 하나 이상의 유형의 운영 체제 플랫폼에 따라 작동할 수 있다.
머신 팜의 서버는 관련 스토리지 시스템과 함께 고밀도 랙 시스템에 저장될 수 있으며 기업 데이터 센터에 위치할 수 있다. 예를 들어, 이러한 방식의 서버 통은 지역화된 고성능 네트워크에 서버들과 고성능 스토리지 시스템을 배치함으로써 시스템 관리성, 데이터 보안, 시스템의 물리적 보안 및 시스템 성능을 향상시킬 수 있다. 서버 및 저장 시스템을 포함하는 데이터 처리 시스템(102) 컴포넌트의 전부 또는 일부를 중앙 집중화하고 이들을 고급 시스템 관리 도구와 결합하면 서버 리소스를 보다 효율적으로 사용할 수 있으며, 이는 전력 및 처리 요구 사항을 절약하고 대역폭 사용을 감소시킨다.
클라이언트 컴퓨팅 디바이스(104)는 적어도 하나의 로컬 디지털 어시스턴트(134), 적어도 하나의 센서(138), 적어도 하나의 변환기(140), 적어도 하나의 오디오 드라이버(142) 또는 적어도 하나의 디스플레이(144) 중 하나 이상을 포함하고, 실행하고, 인터페이스하거나 통신할 수 있다. 센서(138)는 예를 들어 카메라, 주변 광 센서, 근접 센서, 온도 센서, 가속도계, 자이로스코프, 모션 검출기, GPS 센서, 위치 센서, 마이크로폰, 비디오, 이미지 감지 또는 터치 센서를 포함할 수 있다. 변환기(140)는 스피커 또는 마이크로폰을 포함하거나 그의 일부일 수 있다. 오디오 드라이버(142)는 하드웨어 변환기(140)에 소프트웨어 인터페이스를 제공할 수 있다. 오디오 드라이버(142)는 대응하는 음향파 또는 음파를 생성하도록 변환기(140)를 제어하기 위해 데이터 처리 시스템(102)에 의해 제공된 오디오 파일 또는 다른 명령을 실행할 수 있다. 디스플레이(144)는 발광 다이오드, 유기 발광 다이오드, 액정 디스플레이, 레이저 또는 디스플레이와 같은 시각적 표시 또는 광학 출력을 제공하도록 구성된 하나 이상의 하드웨어 또는 소프트웨어 컴포넌트를 포함할 수 있다.
로컬 디지털 어시스턴트(134)는 하나 이상의 프로세서, 로직 어레이 또는 메모리를 포함하거나 이에 의해 실행될 수 있다. 로컬 디지털 어시스턴트(134)는 키워드를 검출하고 그 키워드에 기초하여 동작(action)을 수행할 수 있다. 로컬 디지털 어시스턴트(134)는 데이터 처리 시스템(102)에서 실행되는 원격 디지털 어시스턴트 컴포넌트(112)의 인스턴스일 수 있거나 원격 디지털 어시스턴트 컴포넌트(112)의 임의의 기능을 수행할 수 있다. 로컬 디지털 어시스턴트(134)는 추가 처리를 위해 데이터로서 용어를 데이터 처리 시스템(102)(예를 들어, 원격 디지털 어시스턴트 컴포넌트(112))에 전송하기 전에 하나 이상의 용어를 필터링하거나 그 용어들을 수정할 수 있다. 로컬 디지털 어시스턴트(134)는 변환기(140)에 의해 검출된 아날로그 오디오 신호를 디지털 오디오 신호로 변환하고 디지털 오디오 신호를 운반하는 하나 이상의 데이터 패킷을 네트워크(105)를 통해 데이터 처리 시스템(102)으로 전송할 수 있다. 로컬 디지털 어시스턴트(134)는 이러한 전송을 수행하라는 명령을 검출하는 것에 응답하여 입력 오디오 신호의 일부 또는 전부를 운반하는 데이터 패킷을 전송할 수 있다. 명령은 예를 들어, 입력 오디오 신호를 포함하는 데이터 패킷을 데이터 처리 시스템(102)으로 전송하기 위한 트리거 키워드 또는 다른 키워드 또는 승인을 포함할 수 있다.
로컬 디지털 어시스턴트(134)는 입력 오디오 신호에 대해 사전 필터링 또는 사전 처리를 수행하여 특정 주파수의 오디오를 제거할 수 있다. 사전 필터링은 저역 통과 필터, 고역 통과 필터 또는 대역 통과 필터와 같은 필터를 포함할 수 있다. 필터는 주파수 영역에 적용될 수 있다. 필터는 디지털 신호 처리 기술을 사용하여 적용할 수 있다. 필터는 사람의 음성(voice) 또는 사람의 음성(speech)에 해당하는 주파수를 유지하면서 일반적인 사람의 음성 주파수를 벗어나는 주파수를 제거하도록 구성될 수 있다. 예를 들어, 대역 통과 필터는 제1 임계값(예를 들어, 70Hz, 75Hz, 80Hz, 85Hz, 90Hz, 95Hz, 100Hz 또는 105Hz) 이하의 주파수와 제2 임계값(예를 들어, 200Hz, 205Hz, 210Hz, 225Hz, 235Hz, 245Hz 또는 255Hz) 이상의 주파수를 제거하도록 구성될 수 있다. 대역 통과 필터를 적용하면 다운 스트림 처리에서 컴퓨팅 리소스 사용률을 줄일 수 있다. 컴퓨팅 디바이스(104)상의 로컬 디지털 어시스턴트(134)는 입력 오디오 신호를 데이터 처리 시스템(102)으로 전송하기 전에 대역 통과 필터를 적용할 수 있으며, 이에 따라 네트워크 대역폭 활용을 감소시킬 수 있다. 그러나, 컴퓨팅 디바이스(104)에 이용 가능한 컴퓨팅 자원 및 이용 가능한 네트워크 대역폭에 기초하여, 데이터 처리 시스템(102)이 필터링을 수행할 수 있도록 입력 오디오 신호를 데이터 처리 시스템(102)에 제공하는 것이 더 효율적일 수 있다.
로컬 디지털 어시스턴트(134)는 소음 감소 기술과 같은 추가 전처리 또는 사전-필터링 기술을 적용하여 자연어 프로세서를 방해할 수 있는 주변 소음 레벨을 감소시킬 수 있다. 소음 감소 기술은 자연어 프로세서의 정확성 및 속도를 개선할 수 있고, 이에 따라 데이터 처리 시스템(102)의 성능을 개선하고 디스플레이(144)를 통해 제공되는 그래픽 사용자 인터페이스의 렌더링을 관리할 수 있다.
클라이언트 컴퓨팅 디바이스(104)는 (센서(138) 또는 변환기(140)를 통해) 클라이언트 컴퓨팅 디바이스(104)에 오디오 입력으로서 음성 쿼리를 입력하고 데이터 처리 시스템(102) 또는 디지털 컴포넌트 제공자 디바이스(106)로부터 출력된 오디오(또는 기타)를 수신하는 최종 사용자와 연관되어, 클라이언트 컴퓨팅 디바이스(104)의 최종 사용자에게 제시, 디스플레이 또는 렌더링할 수 있다. 디지털 컴포넌트는 데이터 처리 시스템(102) 또는 디지털 컴포넌트 제공자 디바이스(106)로부터 클라이언트 컴퓨팅 디바이스(104)로 제공될 수 있는 컴퓨터 생성 음성을 포함할 수 있다. 클라이언트 컴퓨팅 디바이스(104)는 변환기(140)(예를 들어, 스피커)를 통해 최종 사용자에게 컴퓨터 생성 음성을 렌더링할 수 있다. 컴퓨터 생성 음성에는 실제 사람 또는 컴퓨터에서 생성된 언어의 녹음이 포함될 수 있다. 클라이언트 컴퓨팅 디바이스(104)는 컴퓨팅 디바이스(104)에 통신적으로 결합된 디스플레이 디바이스(144)를 통해 시각적 출력을 제공할 수 있다.
클라이언트 컴퓨팅 디바이스(104)에 음성 쿼리를 입력하는 최종 사용자는 다수의 클라이언트 컴퓨팅 디바이스(104)와 연관될 수 있다. 예를 들어, 최종 사용자는 스피커 기반 디지털 어시스턴트 디바이스일 수 있는 제1 클라이언트 컴퓨팅 디바이스(104), 모바일 디바이스(예를 들어, 스마트 폰)일 수 있는 제2 클라이언트 컴퓨팅 디바이스(104) 및 데스크톱 컴퓨터일 수 있는 제3 클라이언트 컴퓨팅 디바이스(104)와 연관될 수 있다. 데이터 처리 시스템(102)은 공통 로그인, 위치, 네트워크 또는 다른 링크 데이터를 통해 클라이언트 컴퓨팅 디바이스(104) 각각을 연관시킬 수 있다. 예를 들어, 최종 사용자는 동일한 계정 사용자 이름 및 패스워드를 사용하여 클라이언트 컴퓨팅 디바이스(104) 각각에 로그인할 수 있다.
클라이언트 컴퓨팅 디바이스(104)는 컴퓨팅 디바이스(104)의 센서(138)(예를 들어, 마이크로폰)에 의해 검출된 입력 오디오 신호를 수신할 수 있다. 입력 오디오 신호에는 예를 들어 쿼리, 질문, 커맨드, 명령, 또는 언어로 제공되는 다른 진술이 포함될 수 있다. 입력 오디오 신호는 질문 또는 요청이 전달되는 제3자(예를 들어, 디지털 컴포넌트 제공자 디바이스(106))의 식별자 또는 이름을 포함할 수 있다.
클라이언트 컴퓨팅 디바이스(104)는 디지털 어시스턴트 디바이스를 포함하고, 실행하거나 그것으로 지칭될 수 있다. 디지털 어시스턴트 디바이스는 컴퓨팅 디바이스(104)의 하나 이상의 컴포넌트를 포함할 수 있다. 디지털 어시스턴트 디바이스는 데이터 처리 시스템(102)으로부터 디스플레이 출력을 수신하여 그 디스플레이 출력을 디스플레이(132)에 렌더링할 수 있는 그래픽 드라이버를 포함할 수 있다. 그래픽 드라이버는 그래픽 또는 시각적 출력이 디스플레이(144)에 표시되는 방식을 제어하거나 향상시키는 하드웨어 또는 소프트웨어 컴포넌트를 포함할 수 있다. 그래픽 드라이버는 예를 들어 그래픽 컴포넌트가 나머지 컴퓨팅 디바이스(104)(또는 디지털 어시스턴트)와 함께 작동하는 방식을 제어하는 프로그램을 포함할 수 있다. 로컬 디지털 어시스턴트(134)는 입력 오디오 신호를 필터링하여 필터링된 입력 오디오 신호를 생성하고, 필터링된 입력 오디오 신호를 데이터 패킷으로 변환하고, 데이터 패킷을 하나 이상의 프로세서 및 메모리를 포함하는 데이터 처리 시스템으로 전송할 수 있다.
디지털 어시스턴트 디바이스는 오디오 드라이버(142) 및 스피커 컴포넌트(예를 들어, 변환기(140))를 포함할 수 있다. 전처리기 컴포넌트(140)는 디스플레이 출력의 표시를 수신하여 스피커 컴포넌트(예를 들어, 변환기(140))로 하여금 디스플레이 출력의 표시에 대응하는 오디오 출력을 전송하게 하는 출력 오디오 신호를 생성하도록 오디오 드라이버(142)에 지시한다.
시스템(100)은 적어도 디지털 컴포넌트 제공자 디바이스(106)를 포함하고, 액세스하거나 상호 작용할 수 있다. 디지털 컴포넌트 제공자 디바이스(106)는 클라이언트 컴퓨팅 디바이스(104) 또는 데이터 처리 시스템(102)에 디지털 컴포넌트를 제공할 수 있는 하나 이상의 서버를 포함할 수 있다. 디지털 컴포넌트 제공자 디바이스(106) 또는 그의 컴포넌트들은 데이터 처리 시스템(102)과 통합될 수 있거나 데이터 처리 시스템(102)에 의해 적어도 부분적으로 실행될 수 있다. 디지털 컴포넌트 제공자 디바이스(106)는 네트워크(105)를 통해, 예를 들어 컴퓨팅 디바이스(104), 데이터 처리 시스템(102) 또는 디지털 컴포넌트 제공자 디바이스(106)와 통신하는 프로세서를 갖는 컴퓨팅 디바이스와 같은 적어도 하나의 논리 디바이스를 포함할 수 있다. 디지털 컴포넌트 제공자 디바이스(106)는 적어도 하나의 계산 리소스, 서버, 프로세서 또는 메모리를 포함할 수 있다. 예를 들어, 디지털 컴포넌트 제공자 디바이스(106)는 적어도 하나의 데이터 센터에 위치한 복수의 계산 리소스 또는 서버를 포함할 수 있다.
디지털 컴포넌트 제공자 디바이스(106)는 오디오 출력 디지털 컴포넌트, 비주얼 출력 디지털 컴포넌트 또는 이들의 조합으로서 클라이언트 컴퓨팅 디바이스(104)에 의한 프리젠테이션을 위해 오디오, 비주얼 또는 멀티미디어 기반 디지털 컴포넌트를 제공할 수 있다. 디지털 컴포넌트는 디지털 컨텐츠이거나 이를 포함할 수 있다. 디지털 컴포넌트는 디지털 객체이거나 이를 포함할 수 있다. 디지털 컴포넌트는 구독 기반 컨텐츠 또는 유료 컨텐츠를 포함할 수 있다. 디지털 컴포넌트는 복수의 디지털 컨텐츠 아이템을 포함할 수 있다. 예를 들어, 디지털 컴포넌트는 스트리밍 음악 서비스(예를 들어, 디지털 컴포넌트 제공자 디바이스(106))로부터의 데이터 스트림일 수 있다. 디지털 컴포넌트는 디지털 영화, 웹 사이트, 노래, 애플리케이션(예를 들어, 스마트폰 또는 다른타 클라이언트 디바이스 애플리케이션), 또는 다른 텍스트 기반, 오디오 기반, 이미지 기반 또는 비디오 기반 컨텐츠일 수 있거나 이를 포함할 수 있다. 예를 들어, 디지털 컴포넌트는 디지털 컨텐츠 제공자 디바이스(106)에 의해 컴퓨팅 디바이스(104)로 제공되는 사용 안내 비디오(how-to-video), 영화 또는 다른 비디오일 수 있다. 디지털 컨텐츠 제공자 디바이스(106)는 사용자에 의해 업로드된 디지털 컨텐츠 제공자 디바이스(106)에 의해 생성된 디지털 컴포넌트 또는 다른 디지털 컨텐츠 제공자 디바이스(106)로부터의 소스를 제공할 수 있다.
디지털 컴포넌트 제공자 디바이스(106)는 네트워크(105)를 통해 클라이언트 컴퓨팅 디바이스(104)로 디지털 컴포넌트를 제공하고 데이터 처리 시스템(102)을 바이패스할 수 있다. 디지털 컴포넌트 제공자 디바이스(106)는 네트워크(105) 및 데이터 처리 시스템(102)을 통해 클라이언트 컴퓨팅 디바이스(104)로 디지털 컴포넌트를 제공할 수 있다. 예를 들어, 디지털 컴포넌트 제공자 디바이스(106)는 클라이언트 컴퓨팅 디바이스(104)에 의해 요청될 때 디지털 컴포넌트를 저장하고 클라이언트 컴퓨팅 디바이스(104)에 디지털 컴포넌트를 제공할 수 있는 데이터 처리 시스템(102)에 디지털 컴포넌트를 제공할 수 있다.
데이터 처리 시스템(102)은 적어도 하나의 계산 리소스 또는 서버를 포함할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 인터페이스(110)를 포함하고, 인터페이스하거나 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 원격 디지털 어시스턴트 컴포넌트(112)를 포함하고, 인터페이스하거나 통신할 수 있다. 원격 디지털 어시스턴트 컴포넌트(112)는 적어도 하나의 자연어 프로세서 컴포넌트(114)를 포함하고, 인터페이스하거나 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 디지털 컴포넌트 선택기(120)를 포함하고, 인터페이스하거나 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 주석 컴포넌트(135)를 포함하고, 인터페이스하거나 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 파싱 컴포넌트(116)를 포함하고, 인터페이스하거나, 통신할 수 있다. 데이터 처리 시스템(102)은 적어도 하나의 데이터 저장소(124)를 포함하고, 인터페이스하거나 통신할 수 있다. 적어도 하나의 데이터 저장소(124)는 하나 이상의 데이터 구조 또는 데이터베이스에, 주석 세트(126), 중단점(128), 자막 데이터(130) 및 컨텐츠 데이터(132)를 포함하거나 저장할 수 있다. 데이터 저장소(124)는 하나 이상의 로컬 또는 분산된 데이터베이스를 포함할 수 있으며 데이터베이스 관리를 포함할 수 있다.
인터페이스(110), 원격 디지털 어시스턴트 컴포넌트(112), 자연어 프로세서 컴포넌트(114), 디지털 컴포넌트 선택기(120), 주석 컴포넌트(135) 및 파싱 컴포넌트(116)은 각각 적어도 하나의 처리 유닛 또는 프로그래밍 가능한 논리 어레이 엔진과 같은 다른 논리 디바이스, 또는 데이터베이스 저장소 또는 데이터베이스(124)와 통신하도록 구성된 모듈을 포함할 수 있다. 인터페이스(110), 원격 디지털 어시스턴트 컴포넌트(112), 자연어 프로세서 컴포넌트(114), 디지털 컴포넌트 선택기(120), 주석 컴포넌트(135), 파싱 컴포넌트(116) 및 데이터 저장소(124)는 별도의 컴포넌트, 단일 컴포넌트, 또는 다수의 데이터 처리 시스템(102)의 일부일 수 있다. 데이터 처리 시스템(102)과 같은 시스템(100) 및 그의 컴포넌트는 하나 이상의 프로세서, 논리 디바이스 또는 회로와 같은 하드웨어 엘리먼트를 포함할 수 있다.
데이터 처리 시스템(102)은 인터페이스(110)를 포함할 수 있다. 인터페이스(110)는 예를 들어 데이터 패킷을 사용하여 정보를 수신 및 전송하도록 구성 (configured), 구성(constructed) 또는 동작할 수 있다. 인터페이스(110)는 네트워크 프로토콜과 같은 하나 이상의 프로토콜을 사용하여 정보를 수신 및 송신할 수 있다. 인터페이스(110)는 하드웨어 인터페이스, 소프트웨어 인터페이스, 유선 인터페이스 또는 무선 인터페이스를 포함할 수 있다. 인터페이스(110)는 하나의 포맷에서 다른 포맷으로 데이터를 변환하거나 포맷하는 것을 용이하게 할 수 있다. 예를 들어, 인터페이스(110)는 소프트웨어 컴포넌트와 같은 다양한 컴포넌트 사이의 통신을 위한 정의를 포함하는 애플리케이션 프로그래밍 인터페이스를 포함할 수 있다.
데이터 처리 시스템(102)은 데이터 처리 시스템(102)의 인터페이스(110)에 입력 오디오 신호를 전달하고 클라이언트 컴퓨팅 디바이스의 컴포넌트를 구동하여 출력 오디오 신호 또는 시각적 출력을 렌더링하는 로컬 디지털 어시스턴트(134)와 같은 클라이언트 컴퓨팅 디바이스(104)에 설치된 애플리케이션, 스크립트 또는 프로그램을 포함할 수 있다. 데이터 처리 시스템(102)은 데이터 패킷, 디지털 파일, 또는 입력 오디오 신호(또는 입력 오디오 신호들)를 포함하거나 식별하는 다른 신호를 수신할 수 있다. 컴퓨팅 디바이스(104)는 변환기(140)를 통해 오디오 신호를 검출하고 아날로그-디지털 변환기를 통해 아날로그 오디오 신호를 디지털 파일로 변환할 수 있다. 예를 들어, 오디오 드라이버(142)는 아날로그-디지털 변환기 컴포넌트를 포함할 수 있다. 전처리기 컴포넌트(140)는 오디오 신호를 네트워크(105)를 통해 데이터 패킷을 통해 전송될 수 있는 디지털 파일로 변환할 수 있다.
데이터 처리 시스템(102)의 원격 디지털 어시스턴트 컴포넌트(112)는 NLP 컴포넌트(114)를 실행(execute)하거나 실행(run)하여, 컴퓨팅 디바이스(104)의 센서(138)에 의해 검출된 입력 오디오 신호를 포함하는 데이터 패킷을 수신하거나 획득할 수 있다. 클라이언트 컴퓨팅 디바이스(104)는 또한 NLP 컴포넌트(114)의 인스턴스를 실행하여 클라이언트 컴퓨팅 디바이스(104)에서 언어 및 텍스트를 처리할 수 있다. 데이터 패킷은 디지털 파일을 제공할 수 있다. NLP 컴포넌트(114)는 오디오 신호를 포함하는 디지털 파일 또는 데이터 패킷을 수신 또는 획득하여 오디오 신호를 파싱할 수 있다. 예를 들어, NLP 컴포넌트(114)는 인간과 컴퓨터 간의 상호 작용을 제공할 수 있다. NLP 컴포넌트(114)는 자연어를 이해하고 데이터 처리 시스템(102)이 인간 또는 자연어 입력으로부터 의미를 도출할 수 있도록 하는 기술로 구성될 수 있다. NLP 컴포넌트(114)는 통계적 기계 학습과 같은 기계 학습에 기초한 기술을 포함하거나 그로 구성될 수 있다. NLP 컴포넌트(114)는 결정 트리, 통계 모델 또는 확률 모델을 이용하여 입력 오디오 신호를 파싱할 수 있다.
NLP 컴포넌트(114)는 예를 들어 명명된 엔티티 인식(예를 들어, 텍스트 스트림이 주어지면 사람이나 장소와 같은 고유 이름에 매핑되는 텍스트내의 아이템 및 사람, 위치 또는 조직과 같은 각 이름의 유형 결정), 자연어 생성(예를 들어, 컴퓨터 데이터베이스 또는 시맨틱 의도로부터의 정보를 이해할 수 있는 인간 언어로 변환), 자연어 이해(예를 들어, 텍스트를 컴퓨터 모듈이 조작할 수 있는 1차 논리 구조와 같은 보다 공식적인 표현으로 변환), 기계 번역(예를 들어, 텍스트를 하나의 인간의 언어에서 다른 언어로 자동 번역), 형태 학적 세분화(예를 들어, 고려되는 언어의 단어 형태나 구조의 복잡성에 기초하여 어려울 수 있는 단어를 개별 형태소로 분리하고 형태소의 클래스 식별), 질문 답변(예를 들어, 구체적이거나 개방형일 수 있는 인간 언어 질문에 대한 답변 결정) 및 시맨틱 처리(예를 들어, 식별된 단어를 유사한 의미를 가진 다른 단어와 연관시키기 위해 단어를 식별하고 그의 의미를 인코딩한 후 발생할 수 있는 처리)와 같은 기능을 수행할 수 있다. NLP 컴포넌트(114)는 식별된 단어의 시맨틱 표현을 식별할 수 있다. 시맨틱 표현을 식별함으로써, 데이터 처리 시스템은 특정 단어 매칭보다는 유사한 시맨틱 의미에 기초하여 단어 또는 구문을 매칭할 수 있다. 예를 들어, 시맨틱 표현에 기초하여 입력 텍스트를 검색하면 검색된 단어만 나타나는 대신 검색된 단어에 대한 동의어를 리턴할 수 있다.
NLP 컴포넌트(114)는 입력 신호를 (예를 들어, 데이터 저장소(124)에) 저장된 대표 오디오 파형 세트와 비교하고 가장 가까운 매칭을 선택함으로써 입력 오디오 신호를 인식된 텍스트로 변환할 수 있다. 오디오 파형 세트는 데이터 저장소(124) 또는 데이터 처리 시스템(102)에 액세스 가능한 다른 데이터베이스에 저장될 수 있다. 대표 파형은 대규모 사용자 세트에 대해 생성된 다음 사용자의 음성 샘플로 확대될 수 있다. 오디오 신호가 인식된 텍스트로 변환된 후, NLP 컴포넌트(114)는 예를 들어 사용자에 대한 트레이닝을 통해 또는 수동 사양을 통해 데이터 처리 시스템(102)이 제공할 수 있는 동작과 연관된 단어에 텍스트를 매칭시킨다. NLP 컴포넌트(114)는 이미지 또는 비디오 입력을 텍스트 또는 디지털 파일로 변환할 수 있다. 예를 들어, NLP 컴포넌트(114)는 비디오 파일에서 음성을 검출하고, 음성을 텍스트로 변환한 다음 텍스트를 처리할 수 있다. NLP 컴포넌트(114)는 비디오 파일에서 폐쇄형(closed) 자막 데이터를 식별 또는 수신하고 자막 데이터를 처리하여 텍스트를 인식하거나 폐쇄형 자막 데이터에 대한 시맨틱 분석을 수행할 수 있다. NLP 컴포넌트(114)는 데이터 저장소(124)에 자막 데이터(130)로서 디지털 컴포넌트 각각에 대한 폐쇄형 자막 데이터를 저장할 수 있다. NLP 컴포넌트(114)는 NLP 컴포넌트(114)가 이미지 또는 비디오 입력을 처리, 분석 또는 해석하여 동작을 수행하고, 요청을 생성하거나, 데이터 구조를 선택하거나 식별할 수 있도록 변한할 수 있다.
데이터 처리 시스템(102)은 입력 오디오 신호에 추가하여 또는 대신에 이미지 또는 비디오 입력 신호를 수신할 수 있다. 데이터 처리 시스템(102)은 이미지 또는 비디오를 디지털 파일로 변환하기 위해 이미지 또는 비디오를 인식하거나 해석하기 위해 예를 들어 이미지 해석 기술, 컴퓨터 비전, 기계 학습 엔진 또는 다른 기술을 사용하여 이미지 또는 비디오 입력 신호를 처리할 수 있다. 하나 이상의 이미지 해석 기술, 컴퓨터 비전 기술 또는 기계 학습 기술은 통칭하여 이미징 기술이라고할 수 있다. 데이터 처리 시스템(102)(예를 들어, NLP 컴포넌트(114))은 오디오 처리 기술에 추가하여 또는 대신에 이미징 기술로 구성될 수 있다.
NLP 컴포넌트(114)는 입력 오디오 신호를 획득할 수 있다. 입력 오디오 신호로부터, NLP 컴포넌트(114)는 적어도 하나의 요청 또는 그 요청에 대응하는 적어도 하나의 트리거 키워드를 식별할 수 있다. 요청은 입력 오디오 신호의 의도, 디지털 컴포넌트 또는 주제를 나타낼 수 있다. 트리거 키워드는 취해질 가능성이 있는 액션의 유형을 나타낼 수 있다. 예를 들어, NLP 컴포넌트(114)는 입력 오디오 신호를 파싱하여 비디오 파일의 특정 부분으로 스킵하기 위한 적어도 하나의 요청을 식별할 수 있다. 트리거 키워드는 취해질 액션을 나타내는 적어도 하나의 단어, 문구, 어근 또는 부분 단어 또는 파생어를 포함할 수 있다. 예를 들어, 트리거 키워드 "go", "go to" 또는 "skip"은 최종 사용자가 비디오 파일의 특정 부분을 보고 싶어함을 나타낸다.
NLP 컴포넌트(114)는 입력 오디오 신호를 파싱하여 디지털 컴포넌트에 대한 요청을 식별, 결정, 검색 또는 획득할 수 있다. 디지털 컴포넌트는 스트리밍 영화, 쇼 또는 다른 비디오 파일과 같은 비디오 기반 파일일 수 있다. 예를 들어, NLP 컴포넌트(114)는 입력 오디오 신호에 시맨틱 처리 기술을 적용하여 요청된 디지털 컴포넌트를 식별할 수 있다. NLP 컴포넌트(114)는 시맨틱 처리 기술을 입력 오디오 신호에 적용하여 제1 트리거 키워드 및 제2 트리거 키워드와 같은 하나 이상의 트리거 키워드를 포함하는 트리거 문구를 식별할 수 있다. 예를 들어, 입력 오디오 신호는 "자전거 수리 동영상 재생"이라는 문장을 포함할 수 있다. NLP 컴포넌트(114)는 입력 오디오 신호가 트리거 키워드 "재생"를 포함한다고 결정할 수 있다. NLP 컴포넌트(114)는 요청이 수리되는 자전거의 디지털 컴포넌트(예를 들어, 비디오)에 대한 것인지 결정할 수 있다.
데이터 처리 시스템(102)의 원격 디지털 어시스턴트 컴포넌트(112)는 주석 컴포넌트(135)의 인스턴스를 실행(execute)하거나 실행(run)하여 디지털 컴포넌트에 대한 주석 세트를 생성할 수 있다. 주석 컴포넌트(135)는 프리젠테이션을 위해 클라이언트 컴퓨팅 디바이스(104)로 전송되는 디지털 컴포넌트에 대한 주석 세트를 생성할 수 있다. 주석 세트는 전체 디지털 컴포넌트(예를 들어, 비디오 파일)에 대한 하나 이상의 주석 또는 디지털 컴포넌트에서 식별된 장면 또는 단계 각각에 대한 하나 이상의 주석을 포함할 수 있다. 파싱 컴포넌트(116)는 주석 세트를 사용하여, 디지털 컴포넌트의 장면 또는 디지털 컴포넌트 내에 포함된 의미, 시맨틱 의미 또는 컨텐츠를 결정할 수 있다. 파싱 컴포넌트(116)는 주석 세트를 사용하여, 입력 오디오 신호내의 요청을 디지털 컴포넌트에서 식별된 장면 또는 단계에 매칭시킬 수 있다. 주석 컴포넌트(135)는 주석을 데이터 저장소에 주석 세트(126)로서 저장할 수 있다. 주석 세트(126)는 주석 세트(126)가 연관된 디지털 컴포넌트, 중단점, 장면, 비디오 부분 또는 이들의 임의의 조합을 식별하는 데이터 구조 또는 데이터베이스에 저장될 수 있다.
주석 컴포넌트(135)는 디지털 컴포넌트에서 인식된 음성 또는 텍스트에 기초하여 주석 세트를 생성할 수 있다. 예를 들어, 디지털 컴포넌트는 비디오일 수 있고 NLP 컴포넌트(114)는 비디오로부터 음성을 추출하고 처리할 수 있다. 비디오의 음성 컨텐츠에 기초하여, 주석 컴포넌트는 비디오의 컨텐츠를 결정하고 키워드를 플래그할 수 있다. 예를 들어, 사용 안내 비디오에서 주석 컴포넌트는 툴 또는 특정 재료의 이름을 플래그할 수 있다. 이 예에서 최종 사용자가 주석을 사용하여 사용 안내 비디오를 시청할 때 "이 작업을 수행하는데 필요한 툴은 뭐야"라는 입력 오디오 신호를 제공하면, 데이터 처리 시스템은 비디오에서 최종 사용자에게 툴에 대해 설명하는 사용 안내 비디오의 일부를 제시할 수 있다. 주석 컴포넌트(135)는 디지털 컴포넌트와 연관된 폐쇄형 자막 데이터에 기초하여 주석 세트를 생성할 수 있다. 주석 세트는 디지털 컴포넌트 동안 발화된 단어들의 리스트 또는 그 일부를 포함할 수 있다. 파싱 컴포넌트(116)는 키워드 검색을 수행하여, 입력 오디오 신호에서 식별된 키워드들을 디지털 컴포넌트 동안 발화된 단어들 또는 그의 일부와 매칭시킬 수 있다. 주석 세트는 디지털 컴포넌트내의 용어 또는 문구의 시맨틱 의미 또는 표현을 포함할 수 있다. 주석 세트는 디지털 컴포넌트의 각 장면 또는 부분에 대한 시맨틱 의미를 나타낼 수 있다.
주석 컴포넌트(135)는 디지털 컴포넌트내의 이미지에 기초하여 주석 세트를 생성할 수 있다. 주석 컴포넌트(135)는 이미지 기반 또는 비디오 기반 디지털 컴포넌트로부터 프레임 또는 이미지를 추출할 수 있다. 주석 컴포넌트(135)는 이미지에 대한 이미지 인식을 수행할 수 있다. 이미지를 기반으로 한 주석 세트에는 디지털 컴포넌트에서 식별된 오브젝트의 데이터베이스 및 식별된 오브젝트가 디지털 컴포넌트에서 발생하는 시점이 포함될 수 있다. 주석 컴포넌트(135)는 또한 비디오 기반 디지털 컴포넌트의 전환을 검출할 수 있다. 전환은 예를 들어 장면의 변경 또는 검은색으로 페이드(fades to black)될 수 있다. 전환은 제1 장면에서 제2 장면으로의 변경을 나타낼 수 있다. 주석 세트는 디지털 컴포넌트에서 식별된 전환 유형과 디지털 컴포넌트에서 전환이 발생한 시점을 나타낼 수 있다.
주석 컴포넌트(135)는 제2 클라이언트 컴퓨팅 디바이스(104) 또는 디지털 컨텐츠 제공자 디바이스(106)로부터의 입력에 기초하여 주석 세트를 생성할 수 있다. 예를 들어, 디지털 컴포넌트는 디지털 컨텐츠 제공자 디바이스(106) 또는 제2 클라이언트 컴퓨팅 디바이스(104)의 최종 사용자에 의해 제공될 수 있다. 디지털 컴포넌트의 제공자는 디지털 컴포넌트에 주석을 달고 주석 세트로서 그 주석을 데이터 처리 시스템(102)으로 전송할 수 있다. 제공자로부터의 주석 세트에는 디지털 컴포넌트의 다른 부분에 할당된 비디오, 키워드 또는 태그의 장면이나 단계의 시작점 또는 정의된 중단점의 위치를 나타내는 디지털 컴포넌트의 시점이 포함될 수 있다. 예를 들어, 디지털 컴포넌트(예를 들어, 비디오)의 소유자 또는 작성자는 디지털 컴포넌트에서 논의된 각 단계를 식별하기 위해 디지털 컴포넌트의 메타 데이터에서 중단점의 위치를 설정할 수 있다.
데이터 처리 시스템(102)의 원격 디지털 어시스턴트 컴포넌트(112)는 파싱 컴포넌트(116)의 인스턴스를 실행하여, 주석 컴포넌트(135)에 의해 생성된 주석 세트에 기초하여 디지털 컴포넌트를 다른 부분으로 파싱할 수 있다. 디지털 컴포넌트를 파싱하는 것은 디지털 컴포넌트를 별도의 디지털 컴포넌트로 나누는 것을 포함될 수 있다. 예를 들어, 파싱 컴포넌트(116)는 비디오를 복수의 더 작은 비디오로 분할할 수 있다. 각각의 작은 비디오는 오리지널 비디오에 포함된 단일 장면 또는 단계를 포함할 수 있다. 디지털 컴포넌트를 파싱하는 것은 디지털 컴포넌트의 중단점을 결정하는 것을 포함할 수 있다. 디지털 컴포넌트의 부분은 두 중단점(또는 디지털 컴포넌트의 제1 부분에 대한 파일의 시작점과 제1 중단점 및 디지털 컴포넌트의 마지막 부분에 대한 파일의 종료점과 마지막 중단점) 사이로 정의할 수 있다. 파싱 컴포넌트(116)는 주석 세트에 기초하여 중단점들을 설정할 수 있다. 예를 들어, 파싱 컴포넌트(116)는 장면드 사이의 전환에서 중단점을 설정할 수 있다. 파싱 컴포넌트(116)는 단일 장면 내에서 복수의 중단점을 설정할 수 있다. 예를 들어, 단일 장면이 사용 안내 비디오에서 단일 토픽을 다룰 수 있다. 단일 토픽의 장면을 포함하는 사용 안내 비디오의 부분은 두 개의 중단점으로 정의될 수 있다. 파싱 컴포넌트(116)는 또한 장면 동안 취해진 상이한 단계를 나타내는 장면 내의 복수의 중단점을 포함할 수 있다. 파싱 컴포넌트(116)는 기계 학습 및/또는 자연어 처리를 사용하여 중단점을 설정하여, 비디오의 다른 단계, 비디오의 전환 또는 유용한 문구에 대응할 수 있는 디지털 컴포넌트의 위치를 식별할 수 있다. 예를 들어, 파싱 컴포넌트(116)는 성분 리스트, 툴 리스트 또는 특정 유형의 장면(예를 들어, 자동차 추격 장면)과 같이 디지털 컴포넌트에서 유용하거나 식별할 수 있는 주석을 식별하고, 그들 위치에 중단점을 설정할 수 있다. 파싱 컴포넌트(116)는 또한 디지털 컴포넌트의 시청 히스토리에 기초하여 중단점을 설정할 수 있다. 예를 들어, 일반적으로 사용자가 비디오의 하위 부분(subportion)만 시청하는 경우, 파싱 컴포넌트(116)는 하위 부분을 비디오의 중요하거나 관련된 부분으로 식별하고 그 하위 부분의 시작점 근처에 중단점을 설정할 수 있다. 파싱 컴포넌트(116)는 디지털 컴포넌트에 대한 각각의 중단점을 결정하거나 식별할 수 있다. 파싱 컴포넌트(116)는 중단점을 데이터 저장소(124)에 중단점(128)으로 저장할 수 있다. 중단점(128)은 디지털 컴포넌트의 표시와 관련하여 중단점 각각의 시점을 저장하는 데이터베이스 일 수 있다. 중단점은 디지털 컴포넌트 내에서 설정된 간격으로 설정할 수 있다. 예를 들어, 파싱 컴포넌트(116)는 디지털 컴포넌트의 5분, 10분, 15분, 20분, 25분, 30분 또는 60분마다 중단점을 설정할 수 있다.
디지털 컴포넌트 선택기(120)는 클라이언트 컴퓨팅 디바이스(104)에 의해 처리되고 디스플레이(144) 또는 변환기(140)(예를 들어, 스피커)를 통해 사용자에게 제시될 수 있는 텍스트, 문자열, 문자, 비디오 파일, 이미지 파일 또는 오디오 파일을 포함하는 디지털 컴포넌트를 선택할 수 있다. 디지털 컴포넌트 선택기(120)는 입력 오디오 신호에서 NLP 컴포넌트(114)에 의해 식별된 요청에 응답하는 디지털 컴포넌트를 선택할 수 있다. 주어진 요청에 대해, 디지털 컴포넌트 선택기(120)는 또한 주 디지털 컴포넌트가 제공될 수 있는 보조 디지털 컴포넌트를 선택할 수 있다. 주 디지털 컴포넌트는 요청에 응답하여 직접 선택된 디지털 컴포넌트일 수 있다. 예를 들어, 주 디지털 컴포넌트는 사용자에 의해 요청된 사용 안내 비디오일 수 있다. 보조 디지털 컴포넌트는 추가 정보를 제공하거나 주 디지털 컴포넌트와 관련된 추가 디지털 컴포넌트일 수 있다.
디지털 컴포넌트 선택기(120)는 어떤 디지털 컴포넌트 제공자 디바이스(106)가 요청을 이행해야 하거나 이행할 수 있는지를 선택할 수 있고 요청을 디지털 컴포넌트 제공자 디바이스(106)로 포워딩할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 디지털 컴포넌트 제공자 디바이스(106)와 클라이언트 컴퓨팅 디바이스(104) 사이의 세션을 개시하여 디지털 컴포넌트 제공자 디바이스(106)가 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스(104)로 전송하도록 할 수 있다. 디지털 컴포넌트 선택기(120)는 디지털 컴포넌트 제공자 디바이스(106)로부터 하나 이상의 디지털 컴포넌트를 요청할 수 있다. 디지털 컴포넌트 제공자 디바이스(106)는 데이터 저장소(124)에 디지털 컴포넌트를 저장할 수 있는 데이터 처리 시스템(102)에 디지털 컴포넌트를 제공할 수 있다. 디지털 컴포넌트에 대한 요청에 응답하여, 디지털 컴포넌트 선택기(120)는 데이터 저장소(124)로부터 디지털 컴포넌트를 검색할 수 있다. 디지털 컴포넌트에 대한 요청에 응답하여, 디지털 컴포넌트 선택기(120)는 요청에 응답하여, 디지털 컴포넌트의 일부 또는 전부를 선택하여 클라이언트 컴퓨팅 디바이스(104)로 제공할 수 있다.
디지털 컴포넌트 선택기(120)는 실시간 컨텐츠 선택 프로세스를 통해 다수의 디지털 컴포넌트를 선택할 수 있다. 디지털 컴포넌트 선택기(120)는 디지털 컴포넌트를 스코어링하고 순위를 매길 수 있으며, 출력 병합 컴포넌트(120)가 가장 높은 순위의 디지털 컴포넌트를 선택할 수 있도록 출력 병합 컴포넌트(120)에 다수의 디지털 컴포넌트를 제공할 수 있다. 디지털 컴포넌트 선택기(120)는 입력 오디오 신호(또는 그 안에 포함된 키워드들 및 요청들)에 기초하여 클라이언트 컴퓨팅 디바이스(104)로 전송되는 하나 이상의 추가 디지털 컴포넌트를 선택할 수 있다. 일 예에서, 입력 오디오 신호는 스트리밍 사용 안내 비디오를 시작하라는 요청을 포함할 수 있다. 디지털 컴포넌트 선택기(120)는 추가 디지털 컴포넌트(예를 들어, 광고)를 선택할 수 있다. 디지털 컴포넌트 선택기(120)가 사용 안내 비디오를 클라이언트 컴퓨팅 디바이스(104)로 스트리밍함에 따라 추가 디지털 컴포넌트가 클라이언트 컴퓨팅 디바이스(104)로 전송될 수 있다. 추가 디지털 컴포넌트는 제1 클라이언트 컴퓨팅 디바이스(104)로부터의 요청을 이행할 수 있는 추가 또는 관련된 디지털 컴포넌트 제공자 디바이스(106)를 최종 사용자에게 알릴 수 있다.
디지털 컴포넌트 선택기(120)는 입력 오디오 신호에서 식별된 요청에 응답하여 선택된 선택 디지털 컴포넌트를 컴퓨팅 디바이스(104) 또는 로컬 디지털 어시스턴트(134) 또는 프리젠테이션을 위해 컴퓨팅 디바이스(104)에서 실행하는 애플리케이션에 제공할 수 있다. 따라서, 디지털 컴포넌트 선택기(120)는 클라이언트 컴퓨팅 디바이스(104)로부터 컨텐츠 요청을 수신하고, 컨텐츠 요청에 응답하여 디지털 컴포넌트를 선택하고, 프리젠테이션을 위한 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스(104)로 전송할 수 있다. 디지털 컴포넌트 선택기(120)는 로컬 디지털 어시스턴트(134) 자체 또는 클라이언트 컴퓨팅 디바이스(104)에 의해 실행되는 제3자 애플리케이션에 의한 프리젠테이션을 위해 상기 선택된 디지털 컴포넌트를 로컬 디지털 어시스턴트(134)로 전송할 수 있다. 예를 들어, 로컬 디지털 어시스턴트(134)는 선택된 디지털 컴포넌트에 대응하는 오디오 신호를 재생하거나 출력할 수 있다.
데이터 저장소(124)는 예를 들어 디지털 컴포넌트 제공자 디바이스(106)에 의해 제공되거나 컨텐츠 선택을 용이하게 하기 위해 데이터 처리 시스템(102)에 의해 획득되거나 결정된 디지털 컴포넌트를 포함할 수 있는 컨텐츠 데이터(132)를 저장한다. 컨텐츠 데이터(132)는 예를 들어, 컨텐츠 아이템, 온라인 문서, 오디오, 이미지, 비디오, 멀티미디어 컨텐츠 또는 제3자 컨텐츠를 포함할 수 있는 디지털 컴포넌트(또는 디지털 컴포넌트 오브젝트)를 포함할 수 있다. 디지털 컴포넌트 제공자 디바이스(106)는 컨텐츠 데이터(132)로서 저장하기 위해 데이터 처리 시스템(102)에 전장(full-length) 디지털 컴포넌트를 제공할 수 있다. 디지털 컴포넌트 제공자 디바이스(106)는 디지털 컴포넌트의 일부를 데이터 처리 시스템(102)으로 제공할 수 있다.
도 2는 시간에 따른 디지털 컴포넌트(200)의 예시적인 표현의 블록도를 도시한다. 디지털 컴포넌트(200)는 사용 안내 비디오와 같은 비디오 기반 디지털 컴포넌트일 수 있다. 데이터 처리 시스템은 일반적으로 부분(201)으로 지칭될 수 있는 복수의 부분(201(1) -201(5))을 식별할 수 있다. 데이터 처리 시스템은 일반적으로 중단점(202)로 지칭될 수 있는 복수의 중단점(202(1)-202(4))를 식별할 수 있다. 데이터 처리 시스템은 또한 디지털 컴포넌트의 시작과 끝에서 중단점(202)을 정의할 수 있다.
각각의 부분(201)은 2개의 중단점(202) 사이에 정의될 수 있다. 예를 들어, 부분(201)(2)은 중단점 202(1)과 중단점 202(2) 사이의 시간으로 정의된다. 데이터 처리 시스템은 주석 컴포넌트에 의해 생성된 주석 세트에 기초하여 각각의 중단점(202)이 위치하는 시간을 선택할 수 있다. 중단점(202(1))은 디지털 컴포넌트(200)의 지시 부분의 시작에 대응할 수 있다. 중단점(202(2))은 디지털 컴포넌트(200)의 제1 사용 안내 단계(how-to step)에 대응할 수 있다.
도 3은 음성 작동 시스템에서 디지털 컴포넌트를 제어하기 위한 예시적인 방법(300)의 블록도를 도시한다. 방법(300)은 입력 신호를 수신하는 단계(ACT 302)를 포함할 수 있다. 방법(300)은 입력 신호를 파싱하는 것을 포함할 수 있다(ACT 304). 방법(300)은 주석 세트를 생성하는 단계를 포함할 수 있다(ACT 306). 방법(300)은 중단점들을 식별하는 것을 포함할 수 있다(ACT 308). 방법(300)은 입력 신호를 수신하는 단계(ACT 310) 및 입력 신호를 파싱하는 단계(ACT 312)를 포함할 수 있다. 방법(300)은 중단점을 선택하는 단계를 포함할 수 있다(ACT 314). 방법(300)은 디지털 컴포넌트의 일부를 전송하는 단계를 포함할 수 있다(ACT 316).
전술한 바와 같이, 방법(300)은 입력 신호를 수신하는 단계를 포함할 수 있다(ACT 302). 방법(300)은 데이터 처리 시스템에 의해 실행되는 자연어 프로세서 컴포넌트에 의해, 입력 신호를 수신하는 단계를 포함할 수 있다. 입력 신호는 제1 클라이언트 디바이스에서 센서에 의해 검출된 입력 오디오 신호일 수 있다. 센서는 제1 클라이언트 디바이스의 마이크로폰일 수 있다. 예를 들어, 하나 이상의 프로세서 및 메모리를 포함하는 데이터 처리 시스템에 의해 적어도 부분적으로 실행되는 디지털 어시스턴트 컴포넌트는 입력 오디오 신호를 수신할 수 있다. 입력 오디오 신호는 디지털 어시스턴트에 의해 촉구되는 대화를 포함할 수 있다. 대화에는 하나 이상의 입력 및 출력이 포함될 수 있다. 대화는 오디오 기반, 텍스트 기반 또는 오디오와 텍스트의 조합일 수 있다. 입력 오디오 신호에는 텍스트 입력 또는 대화 정보를 제공할 수 있는 다른 유형의 입력이 포함될 수 있다. 데이터 처리 시스템은 대화에 대응하는 세션에 대한 오디오 입력을 수신할 수 있다. 데이터 처리 시스템은 오디오 입력을 하나 이상의 부분으로 또는 대량 또는 일괄 업로드(예를 들어, 전송 횟수를 줄이기 위해 단일 전송으로 업로드된 대화의 다수의 부분)로 수신할 수 있다.
방법(300)은 입력 신호를 파싱하는 단계를 포함할 수 있다(ACT 304). 데이터 처리 시스템의 NLP 컴포넌트는 입력 신호를 파싱하여 디지털 컴포넌트 요청을 식별할 수 있다. NLP 컴포넌트는 입력 신호에서 트리거 키워드를 식별할 수 있다. 예를 들어, 입력 오디오 신호에는 "OK, 자전거 수리 방법을 알려줘"가 포함될 수 있다. NLP 컴포넌트는 입력 신호를 파싱하여 요청이 자전거 수리 방법을 보여주는 사용 안내 비디오에 대한 것인지 결정할 수 있다. NLP 컴포넌트는 트리거 키워드가 재생하는 것임을 결정할 수 있으며, 이는 최종 사용자가 클라이언트 컴퓨팅 디바이스로 비디오를 스트리밍하고 재생하기를 원함을 나타낼 수 있다. 클라이언트 컴퓨팅 디바이스는 또한 텍스트 형태로 데이터 처리 시스템에 디지털 컴포넌트 요청을 제공할 수 있다. 예를 들어, 최종 사용자는 클라이언트 컴퓨팅 디바이스와 관련된 물리적 또는 디지털 키보드를 사용하여 특정 비디오 또는 다른 파일에 대한 요청을 입력할 수 있다.
또한 도 4를 참조하면, 도 4는 방법(300)의 동작 동안 제1 시점(401) 및 제2 시점(402) 동안 클라이언트 컴퓨팅 디바이스(104)를 도시한다. 도 4에 도시된 클라이언트 컴퓨팅 디바이스(104)는 디스플레이(144)에서 최종 사용자에게 제시되는 예시적인 사용자 인터페이스를 도시한다. 사용자 인터페이스는 대화형 음성 기반 인터페이스이다. 예를 들어, 사용자로부터의 입력은 디스플레이(144)의 우측으로 시작하는 것으로 디스플레이되고 데이터 처리 시스템으로부터의 입력(또는 응답)은 디스플레이(144)의 좌측으로 시작하여 디스플레이된다. 새로운 입력 또는 응답이 대화의 하단(디스플레이(144)의 하단 근처)에 추가된다. 새로운 입력 또는 응답이 추가됨에 따라, 이전 입력 및 응답은 디스플레이(144)의 상단으로 스크롤된다. 예를 들어, 시간(402)에서, 시간(401)에서 보이는 입력의 일부는 디스플레이(144)의 가시적인 부분에서 스크롤링되었다.
도 4에 도시된 바와 같이, 클라이언트 컴퓨팅 디바이스(104)는 "내 자전거를 어떻게 수리하지?"라는 문구를 포함하는 입력 오디오 신호를 검출할 수 있다. 입력 오디오 신호는 NLP 컴포넌트(114)에 의해 처리되어 입력 오디오 신호의 텍스트를 추출할 수 있다. 입력 오디오 신호의 텍스트(403)는 클라이언트 컴퓨팅 디바이스(104)(및 데이터 처리 시스템(102))가 입력 오디오 신호를 이해하고 정확하게 처리했다는 확인으로서 사용자에게 디스플레이될 수 있다. 데이터 처리 시스템은 입력 오디오 신호에서 식별된 요청에 응답하여 디지털 컴포넌트(404)를 선택할 수 있다. 도 4에 예시된 예에서, 디지털 컴포넌트(404)는 비디오 컴포넌트(405) 및 텍스트 컴포넌트(406)를 포함한다.
방법(300)은 주석 세트를 생성하는 단계를 포함할 수 있다(ACT 306). 주석 컴포넌트(135)는 선택된 디지털 컴포넌트에 대한 하나 이상의 주석 세트를 생성할 수 있다. NLP 컴포넌트(114)는 디지털 컴포넌트에 포함된 음성 또는 디지털 컴포넌트에 있거나 디지털 컴포넌트와 연관된 폐쇄형 자막 데이터를 처리하여 하나 이상의 주석 세트를 생성할 수 있다. 주석 컴포넌트(135)는 디지털 컴포넌트에서 식별된 오브젝트에 기초하여 하나 이상의 주석 세트를 생성할 수 있다. 예를 들어, 데이터 처리 시스템(102)은 디지털 컴포넌트 내의 비디오 프레임상에서 객체 인식을 수행하여 디지털 컴포넌트 내의 오브젝트를 식별할 수 있다. 주석 컴포넌트(135)는 디지털 컴포넌트 내의 전환(예를 들어, 비디오 페이드 인 또는 비디오 페이드 아웃)에 기초하여 주석 세트를 생성할 수 있다. NLP 컴포넌트(114)는 디지털 컴포넌트 내의 음성 또는 텍스트의 시맨틱 표현을 생성할 수 있다. 주석 컴포넌트(135)는 시맨틱 표현에 기초하여 주석 세트를 생성할 수 있다. 주석 컴포넌트(135)는 디지털 컴포넌트의 어느 부분이 특정 토픽 또는 단계와 관련되는지를 결정하기 위해 시맨틱 표현을 함께 클러스터링할 수 있다. 예를 들어, 자전거 수리 방법에 대한 사용 안내 비디오인 디지털 컴포넌트에 대해, 주석 컴포넌트(135)는 시맨틱 표현을 사용하여 타이어 교체를 도시하는 사용 안내 비디오의 일부 및 자전거 체인의 교체 방법을 도시하는 사용 안내 비디오의 일부를 식별할 수 있다. 주석 컴포넌트(135)는 타이어 변경이 논의되는 사용 안내 비디오의 시간 부분 및 체인 변경이 논의되는 사용 안내 비디오의 부분을 나타내는 주석 세트를 생성할 수 있다.
방법(300)은 중단점을 식별하는 단계를 포함할 수 있다(ACT 308). 데이터 처리 시스템(102)은 생성된 주석 세트 중 하나 이상에 기초하여 중단점을 식별할 수 있다. 중단점은 비디오 내 키 프레임의 시점(time points)을 식별할 수 있다. 중단점은 장면 전환, 사용 안내 비디오 내의 각 단계의 시작, 비디오 내의 관심 지점, 비디오에 대한 오브젝트의 진입 또는 진출을 식별할 수 있다.
중단점 중 하나 이상의 표시가 클라이언트 컴퓨팅 디바이스(104)로 전송될 수 있다. 또한 도 4를 참조하면, 중단점의 표시는 디지털 컴포넌트(407)에 포함될 수 있고 클라이언트 컴퓨팅 디바이스(104)로 전송될 수 있다. 클라이언트 컴퓨팅 디바이스(104)는 디지털 컴포넌트(407)를 렌더링하여, 데이터 처리 시스템(102)이 비디오 컴포넌트(405)에 존재한다고 결정한 중단점의 리스트 또는 표시를 디스플레이할 수 있다. 주석 컴포넌트(135)는 각각의 중단점에 대한 라벨을 생성할 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 데이터 처리 시스템(102)은 3개의 중단점의 표시를 포함하는 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스(104)로 전송 하였다. 중단점은 "단계 1", "단계 2" 및 "단계 3"으로 라벨링되었으며, 비디오 컴포넌트(405)에서 각각 단계 1, 단계 2 및 단계 3의 시작 시점에 대응할 수 있다.
방법(300)은 또한 입력 오디오 신호에 응답하여 식별된 주 디지털 컴포넌트에 추가하여 하나 이상의 보조 또는 추가 디지털 컴포넌트를 선택하는 데이터 처리 시스템(102)을 포함할 수 있다. 예를 들어, 보조 디지털 컴포넌트는 동일한 토픽과 관련이 있거나 주 디지털 컴포넌트와 관련된 추가 정보를 제공하거나 최종 사용자에게 추가 입력을 프롬프트할 수 있다. 또한 도 4를 참조하면, 데이터 처리 시스템(102)은 추가 디지털 컴포넌트(408)를 선택하여 클라이언트 컴퓨팅 디바이스 (104)로 전송했다. 클라이언트 컴퓨팅 디바이스(104)는 주 디지털 컴포넌트(404)와 함께 추가 디지털 컴포넌트(408)를 렌더링하고 제시할 수 있다. 추가 디지털 컴포넌트(308)는 서비스 제공자를 위한 광고 또는 디지털 컴포넌트(404)와 관련된 컨텐츠일 수 있다.
방법(300)은 입력 신호를 수신하는 단계를 포함할 수 있다(ACT 310). 입력 신호는 제2 입력 오디오 신호일 수 있다. 제2 입력 오디오 신호는 클라이언트 컴퓨팅 디바이스(104)의 센서(예를 들어, 마이크로폰)에 의해 검출될 수 있다. 방법(300)은 입력 신호를 파싱하는 단계를 포함할 수 있다(ACT 312). NLP 컴포넌트(114)는 제2 입력 오디오 신호를 파싱하여 제2 입력 오디오 신호 내의 키워드, 용어 또는 시맨틱 표현을 식별할 수 있다. 예를 들어, 또한 도 4를 참조하면, 제2 입력 오디오 신호는 "체인 수리하는 것을 보여줘"이라는 문구를 포함할 수 있다. 클라이언트 컴퓨팅 디바이스(104)는 제2 입력 오디오 신호로부터 텍스트(409)를 디스플레이할 수 있다. NLP 컴포넌트(114)는 제2 입력 오디오 신호를 파싱하여 위의 예시적인 단계에서 "보여줘(show)"와 같은 키워드를 식별할 수 있다. NLP 컴포넌트(114)는 키워드 "보여줘"에 기초하여, 사용자가 비디오 컴포넌트(405)의 특정 부분을 원하고 있음을 식별할 수 있다. NLP 컴포넌트(114)는 최종 사용자가 자전거 체인을 수리하는 비디오 내의 단계들에 대응하는 비디오 컴포넌트(405)의 부분을 보고 싶어한다는 것을 식별할 수 있다.
방법(300)은 중단점을 선택하는 단계를 포함할 수 있다(ACT 314). 데이터 처리 시스템(102)은 디지털 컴포넌트의 하나 이상의 주석 세트에 기초하여 생성된 복수의 중단점로부터 중단점을 선택할 수 있다. 데이터 처리 시스템(102)은 제2 입력 오디오 신호에서 식별된 키워드, 용어 또는 시맨틱 표현에 기초하여 중단점을 선택할 수 있다. 데이터 처리 시스템(102)은 키워드, 용어 또는 시맨틱 표현을 디지털 컴포넌트의 각 부분 또는 복수의 중단점 각각에 대응하는 주석과 매칭시키거나 연관시킬 수 있다.
도 4에 예시된 예에서. 사용자는 "체인 수리하는 것을 보여 줘"라는 문구를 포함하는 제2 입력 오디오 신호를 제공했다. 제2 입력 오디오 신호는 특정 중단점에 대한 요청을 포함할 수 있다. 예를 들어, 클라이언트 컴퓨팅 디바이스(104)는 사용자에게 복수의 중단점을 제시하는 디지털 컴포넌트(407)를 렌더링했다. 제2 입력 오디오 신호는 이전에 최종 사용자에게 표시되지 않은 중단점을 식별하거나 이와 연관될 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 제2 입력 오디오 신호 "체인 수리하는 것을 보여줘"는 "단계 1", "단계 2" 또는 "단계 3"의 중단점 중 하나의 선택이 아니다. 제2 입력 오디오 신호에 중단점의 특정 선택이 포함되지 않은 경우, 데이터 처리 시스템(102)은 제2 입력 오디오 신호에서 식별된 키워드, 용어 또는 시맨틱 표현을 디지털 컴포넌트의 부분들 중 하나 또는 복수의 중단점 중 하나에 대응하는 주석과 매칭시키거나 연관시킬 수 있다. 예를 들어, "체인"이라는 용어는 주석 컴포넌트(135)가 체인을 비디오의 오브젝트로 식별하거나 비디오의 일부에 있는 음성의 텍스트 또는 시맨틱 의미가 체인에 해당하는 비디오 컴포넌트(405)의 일부와 매칭되거나 연관될 수 있다.
방법(300)은 디지털 컴포넌트의 일부를 전송하는 단계를 포함할 수 있다(ACT 316). 디지털 컴포넌트의 전송된 부분은 선택된 중단점에 해당할 수 있다. 디지털 컴포넌트의 일부는 클라이언트 컴퓨팅 디바이스(104)가 디지털 컴포넌트의 전송된 부분을 자동으로 재생 또는 렌더링하기 시작하게 하는 명령과 함께 클라이언트 컴퓨팅 디바이스(104)로 전송될 수 있다. 예를 들어, 도 4를 참조하면, 데이터 처리 시스템(102)은 자전거의 체인을 변경하는 방법을 예시하는 부분의 시작에 대응하는 중단점을 선택할 수 있다. 클라이언트 데이터 처리 시스템(102)은 선택된 부분을 데이터 처리 시스템으로 전송할 수 있고, 데이터 처리 시스템(102)은 자전거 체인을 변경하는 방법을 예시하는 비디오 컴포넌트의 부분을 렌더링하기 시작할 수 있다. 디지털 컴포넌트의 일부를 전송하는 단계는 또한 선택된 중단점과 관련된 시간의 표시를 클라이언트 컴퓨팅 디바이스(104)로 전송하는 단계를 포함할 수 있다. 예를 들어, 클라이언트 컴퓨팅 디바이스(104)는 이전에 디지털 컴포넌트의 엔티티를 수신했을 수 있다. 중단점이 선택되면, 그 중단점와 관련된 시간이 클라이언트 컴퓨팅 디바이스(104)로 전송될 수 있고, 클라이언트 컴퓨팅 디바이스(104)는 중단점와 관련된 비디오내의 시간으로 스킵(건너뛰기)할 수 있다.
도 5는 예시적인 컴퓨터 시스템(500)의 블록도를 도시한다. 컴퓨터 시스템 또는 컴퓨팅 디바이스(500)는 시스템(100) 또는 데이터 처리 시스템(102)과 같은 그의 컴포넌트를 포함하거나 구현하는데 사용될 수 있다. 데이터 처리 시스템(102)은 지능형 개인 어시스턴트 또는 음성 기반 디지털 어시스턴트를 포함할 수 있다. 컴퓨팅 시스템(500)은 정보를 전달하기 위한 버스(505) 또는 다른 통신 컴포넌트 및 정보를 처리하기 위해 버스(505)에 결합된 프로세서(510) 또는 처리 회로를 포함한다. 컴퓨팅 시스템(500)은 또한 정보를 처리하기 위해 버스에 결합된 하나 이상의 프로세서(510) 또는 처리 회로를 포함할 수 있다. 컴퓨팅 시스템(500)은 또한 정보를 저장하기 위해 버스(505)에 결합된 랜덤 액세스 메모리(RAM) 또는 다른 동적 저장 디바이스와 같은 메인 메모리(515) 및 프로세서(510)에 의해 실행될 명령을 포함한다. 메인 메모리(515)는 데이터 저장소(124)이거나 이를 포함할 수 있다. 메인 메모리(515)는 또한 프로세서(510)에 의한 명령의 실행 동안 위치 정보, 임시 변수 또는 다른 중간 정보를 저장하는데 사용될 수 있다. 컴퓨팅 시스템(500)은 프로세서(510)에 대한 정적 정보 및 명령을 저장하기 위해 버스(505)에 결합된 판독 전용 메모리(ROM)(520) 또는 다른 정적 저장 디바이스를 더 포함할 수 있다. 솔리드 스테이트 디바이스, 자기 디스크 또는 광 디스크와 같은 저장 디바이스(525)는 정보 및 명령을 지속적으로 저장하기 위해 버스(505)에 결합될 수 있다. 저장 디바이스(525)는 데이터 저장소(124)를 포함하거나 그의 일부일 수 있다.
컴퓨팅 시스템(500)은 사용자에게 정보를 디스플레이하기 위해 버스(505)를 통해 액정 디스플레이 또는 액티브 매트릭스 디스플레이와 같은 디스플레이(535)에 결합될 수 있다. 영숫자 및 다른 키를 포함하는 키보드와 같은 입력 디바이스(530)는 정보 및 명령 선택을 프로세서(510)에 전달하기 위해 버스(505)에 결합될 수 있다. 입력 디바이스(530)는 터치 스크린 디스플레이(535)를 포함할 수 있다. 입력 디바이스(530)는 또한 방향 정보 및 명령 선택을 프로세서(510)에 전달하고 디스플레이(535)상의 커서 이동을 제어하기 위한 마우스, 트랙볼 또는 커서 방향 키와 같은 커서 컨트롤을 포함할 수 있다. 디스플레이(535)는 예를 들어 데이터 처리 시스템(102), 클라이언트 컴퓨팅 디바이스(104) 또는 도 1의 다른 컴포넌트의 일부일 수 있다.
본 명세서에 설명된 프로세스, 시스템 및 방법은 메인 메모리(515)에 포함된 명령들의 배열을 실행하는 프로세서(510)에 응답하여 컴퓨팅 시스템(500)에 의해 구현될 수 있다. 이러한 명령들은 저장 디바이스(525)와 같은 다른 컴퓨터 판독 가능 매체로부터 메인 메모리(515)로 판독될 수 있다. 메인 메모리(515)에 포함된 명령 배열의 실행은 컴퓨팅 시스템(500)으로 하여금 본 명세서에 설명된 예시적인 프로세스들을 수행하게 한다. 다중 프로세싱 배열에서 하나 이상의 프로세서는 또한 메인 메모리(515)에 포함된 명령들을 실행하기 위해 사용될 수 있다. 하드 와이어 회로는 본 명세서에 설명된 시스템 및 방법과 함께 소프트웨어 명령 대신 또는 이와 조합하여 사용될 수 있다. 본 명세서에 설명된 시스템 및 방법은 하드웨어 회로 및 소프트웨어의 특정 조합으로 제한되지 않는다.
예시적인 컴퓨팅 시스템이 도 5에서 설명되었지만, 본 명세서에 기술된 동작을 포함하는 주제는 다른 유형의 디지털 전자 회로, 또는 본 명세서 및 그 구조적 등가물에 개시된 구조를 포함하는 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서, 또는 그들의 하나 이상의 조합으로 구현될 수 있다. .
본 명세서에 설명된 시스템이 사용자에 대한 개인 정보를 수집하거나 개인 정보를 사용할 수 있는 상황의 경우, 사용자는 개인 정보(예를 들어, 사용자의 소셜 네트워크, 소셜 동작 또는 활동, 사용자의 선호도 또는 사용자의 위치에 관한 정보)를 수집할 수 있는 프로그램 또는 기능을 제어하거나 사용자와 더 관련이 있을 수 있는 컨텐츠 서버 또는 다른 데이터 처리 시스템으로부터 컨텐츠를 수신할지 여부 또는 수신 방법을 제어할 수 있는 기회를 제공받을 수 있다. 또한 특정 데이터는 파라미터를 생성할 때 개인 식별 정보가 제거되도록 저장 또는 사용되기 전에 하나 이상의 방법으로 익명화될 수 있다. 예를 들어, 사용자의 신원은 익명화되여 개인 식별 정보가 사용자에 대해 결정되지 않도록 하거나 사용자의 지리적 위치는 위치 정보가 획득된 곳(예를 들어, 도시, 우편 번호 또는 주 수준)으로 일반화되어 사용자의 특정 위치가 확인될 수 없도록 할 수 있다. 따라서, 사용자는 자신에 대한 정보를 수집하고 컨텐츠 서버에서 사용하는 방법을 제어할 수 있다.
본 명세서에 기술된 주제 및 동작은 디지털 전자 회로, 또는 본 명세서 및 그 구조적 등가물에 개시된 구조를 포함하여 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에 기술된 주제는 데이터 처리 장치에 의한 실행을 위해 또는 데이터 처리 장치의 동작을 제어하기 위해 하나 이상의 컴퓨터 저장 매체상에 인코딩된 하나 이상의 컴퓨터 프로그램, 예를 들어 하나 이상의 컴퓨터 프로그램 명령의 회로로서 구현될 수 있다. 대안적으로 또는 부가적으로, 프로그램 명령들은 인공적으로 생성된 전파 신호, 예를 들어 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로 전송하기 위해 정보를 인코딩하도록 생성된 기계 생성의 전기, 광학 또는 전자기 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 저장 디바이스, 컴퓨터 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 어레이 또는 디바이스, 또는 이들 중 하나 이상의 조합일 수 있거나 그에 포함될 수 있다. 컴퓨터 저장 매체는 전파된 신호가 아니지만, 컴퓨터 저장 매체는 인위적으로 생성된 전파 신호로 인코딩된 컴퓨터 프로그램 명령의 소스 또는 대상일 수 있다. 컴퓨터 저장 매체는 또한 하나 이상의 개별 컴포넌트 또는 매체(예를 들어, 다중 CD, 디스크 또는 기타 저장 디바이스)일 수 있거나 그에 포함될 수 있다. 본 명세서에 설명된 동작들은 하나 이상의 컴퓨터 판독 가능 저장 디바이스에 저장되거나 다른 소스로부터 수신된 데이터에 대해 데이터 처리 장치에 의해 수행되는 동작으로 구현될 수 있다.
"데이터 처리 시스템" "컴퓨팅 디바이스" "컴포넌트" 또는 "데이터 처리 디바이스"라는 용어는 예를 들어 프로그램 가능한 프로세서, 컴퓨터, 시스템 온 칩, 또는 다수의 것 또는 이들의 조합을 포함하여 데이터를 처리하기 위한 다양한 장치, 디바이스 및 기계를 포함한다. 장치는 FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)와 같은 특수 목적 논리 회로를 포함할 수 있다. 장치는 또한 하드웨어에 추가하여 해당 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 크로스 플랫폼 런타임 환경, 환경, 가상 머신 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다. 장치 및 실행 환경은 웹 서비스, 분산 컴퓨팅 및 그리드 컴퓨팅 인프라와 같은 다양한 상이한 컴퓨팅 모델 인프라를 구현할 수 있다. 예를 들어, 인터페이스(110), 디지털 컴포넌트 선택기(120), NLP 컴포넌트(114), 주석 컴포넌트(135), 파싱 컴포넌트(116) 및 다른 데이터 처리 시스템 컴포넌트는 하나 이상의 데이터 처리 장치, 시스템, 컴퓨팅 디바이스 또는 프로세서를 포함하거나 공유할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 앱, 스크립트 또는 코드라고도 함)은 컴파일 또는 해석 언어, 선언적 또는 절차적 언어를 포함한 모든 형태의 프로그래밍 언어로 작성될 수 있으며 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브 루틴, 객체, 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여 모든 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있다. 컴퓨터 프로그램은 다른 프로그램이나 데이터(예를 들어, 마크 업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하는 파일의 일부, 해당 프로그램 전용 단일 파일 또는 다수의 조정된 파일( 예를 들어, 하나 이상의 모듈, 서브 프로그램 또는 코드의 일부를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 하나의 사이트에 위치하거나 여러 사이트에 분산되고 통신 네트워크로 상호 연결된 여러 컴퓨터에서 실행되도록 배포될 수 있다.
본 명세서에 설명된 프로세스 및 논리 흐름은 입력 데이터에 대해 작동하여 출력을 생성함으로써 동작을 수행하기 위해 하나 이상의 컴퓨터 프로그램(예를 들어, 데이터 처리 시스템(102)의 컴포넌트)을 실행하는 하나 이상의 프로그램 가능 프로세서에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 또한 FPGA(필드 프로그래머블 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)와 같은 특수 목적 로직 회로에 의해 수행될 수 있으며 장치 역시 이로서 구현될 수 있다. 컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 디바이스는 예를 들어 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스), 자기 디스크(예를 들어 내부 하드 디스크 또는 이동식 디스크); 광 자기 디스크; 및 CD ROM과 DVD-ROM 디스크를 포함하여 모든 형태의 비-휘발성 메모리, 미디어 및 메모리 디바이스를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.
본 명세서에 설명된 주제는 백엔드 컴포넌트(예를 들어, 데이터 서버)를 포함하거나, 미들웨어 컴포넌트(예를 들어 애플리케이션 서버)를 포함하거나, 프론트 엔드 컴포넌트(예를 들어, 사용자가 본 명세서에 설명된 주제의 구현과 상호 작용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저가 있는 클라이언트 컴퓨터)를 포함하거나, 이러한 백 엔드, 미들웨어 또는 프런트 엔드 컴포넌트등 중 하나 이상의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 연결될 수 있다. 통신 네트워크의 예는 근거리 통신망("LAN") 및 광역 네트워크("WAN"), 네트워크 간(예를 들어, 인터넷) 및 피어-투-피어 네트워크(예를 들어, 애드혹 피어- 투 피어 네트워크)를 포함한다.
시스템(100) 또는 시스템(500)과 같은 컴퓨팅 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있고 일반적으로 통신 네트워크(예를 들어, 네트워크(105))를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램으로 인해 발생한다. 일부 구현에서, 서버는 데이터(예를 들어, 디지털 컴포넌트를 나타내는 데이터 패킷)를 (예를 들어, 클라이언트 디바이스와 상호 작용하는 사용자에게 데이터를 디스플레이하고 사용자로부터 사용자 입력을 수신하기 위해) 클라이언트 디바이스로 전송한다. 클라이언트 디바이스에서 생성된 데이터(예를 들어, 사용자 상호 작용의 결과)는 서버에서 클라이언트 디바이스로부터 수신될 수 있다(예를 들어, 클라이언트 컴퓨팅 디바이스(104) 또는 디지털 컴포넌트 제공자 디바이스(106)로부터 데이터 처리 시스템(102)에 의해 수신됨).
동작들이 도면에 특정 순서로 도시되어 있지만, 이러한 동작들은 도시된 특정 순서로 또는 순차적으로 수행될 필요가 없으며 모든 예시된 동작이 수행될 필요가 없다. 본 명세서에 설명된 동작들은 다른 순서로 수행될 수 있다.
다양한 시스템 컴포넌트의 분리는 모든 구현에서 분리를 필요로하지 않으며, 설명된 프로그램 컴포넌트는 단일 하드웨어 또는 소프트웨어 제품에 포함될 수 있다. 예를 들어, NLP 컴포넌트(114) 또는 디지털 컴포넌트 선택기(120)는 단일 컴포넌트, 앱 또는 프로그램, 또는 하나 이상의 처리 회로를 갖는 논리 디바이스 또는 데이터 처리 시스템(102)의 하나 이상의 서버의 일부일 수 있다.
이제 일부 예시적인 구현을 설명하였지만, 전술한 내용은 예시적인 것이며 제한적이지 않으며 예로서 제시된 것이 명백하다. 특히, 본 명세서에 제시된 많은 예가 방법 동작 또는 시스템 요소의 특정 조합을 포함하지만, 이러한 동작 및 이러한 요소는 동일한 목적을 달성하기 위해 다른 방식으로 결합될 수 있다. 하나의 구현과 관련하여 논의된 동작, 요소 및 기능은 다른 구현 또는 구현의 유사한 역할에서 제외되지 않는다.
본 명세서에서 사용된 어법 및 용어는 설명을 위한 것이며 제한적인 것으로 간주되어서는 안된다. 본 명세서에서 "포함하는(including)", "포함하는 (comprising)", "갖는(having)", "포함하는(containing)", "포함하는 (involving)", "~로 특징화되는(characterized by)" "~라고 특징화되는 (characterized in that)" 및 그의 변형의 사용은 이후에 나열된 아이템, 그에 상응하는 아이템 및 추가 아이템뿐만 아니라 이후에 독점적으로 나열된 아이템으로 구성된 대체 구현을 포함하는 것을 의미한다. 일 구현에서, 본 명세서에 설명된 시스템 및 방법은 설명된 요소, 동작 또는 컴포넌트 중 하나 이상, 또는 하나 이상의 각 조합 또는 그들 모두로 구성된다.
본 명세서에서 단수로 언급된 시스템 및 방법의 구현 또는 요소 또는 동작에 대한 모든 참조는 또한 복수의 이러한 요소를 포함하는 구현을 포함할 수 있으며, 본 명세서에서 임의의 구현 또는 요소 또는 동작에 대한 복수의 참조는 단일 요소만을 포함하는 구현을 포함할 수도 있다. 단수 또는 복수 형태의 참조는 현재 개시된 시스템 또는 방법, 이들의 컴포넌트, 동작 또는 요소를 단일 또는 복수 구성으로 제한하려는 것이 아니다. 임의의 정보, 동작 또는 요소를 기초로 하는 임의의 동작 또는 요소에 대한 언급은 동작 또는 요소가 정보, 동작 또는 요소에 적어도 부분적으로 기초하는 구현을 포함할 수 있다.
본 명세서에 개시된 임의의 구현은 임의의 다른 구현 또는 실시예와 결합될 수 있으며, "구현", "일부 구현", "일 구현" 등에 대한 참조는 반드시 상호 배타적 인 것은 아니며, 그 구현과 관련하여 설명된 특정 특징, 구조 또는 특성이 적어도 하나의 구현 또는 실시예에 포함될 수 있음을 나타내도록 의도된다. 본 명세서에서 사용되는 이러한 용어는 반드시 모두 동일한 구현을 지칭하는 것은 아니다. 임의의 구현은 본 명세서에 개시된 양태 및 구현과 일치하는 임의의 방식으로 포함적으로 또는 배타적으로 임의의 다른 구현과 결합될 수 있다.
"또는"에 대한 언급은 "또는"을 사용하여 설명된 임의의 용어가 단일, 하나 이상 및 설명된 모든 용어 중 임의의 것을 나타낼 수 있도록 포괄적인 것으로 해석될 수 있다. 예를 들어, " 'A'와 'B'중 적어도 하나"에 대한 언급은 'A'만, 'B'만 뿐만 아니라 'A' 및 'B'를 모두 포함할 수 있다. "포함하는" 또는 다른 개방형 용어와 함께 사용되는 이러한 언급에는 추가 아이템이 포함될 수 있다.
도면의 기술적 특징, 상세한 설명 또는 청구항 뒤에 참조 기호가 오는 경우, 그 참조 기호는 도면, 상세한 설명 및 청구 범위의 이해도를 높이기 위해 포함되었다. 따라서, 참조 부호나 그 부재는 청구 요소의 범위에 제한 효과가 없다.
본 명세서에 기술된 시스템 및 방법은 그 특성을 벗어나지 않고 다른 특정 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(104)는 패키징된 데이터 오브젝트를 생성하고 애플리케이션을 시작할 때 제3자 애플리케이션으로 그것을 포워딩할 수 있다. 전술한 구현은 설명된 시스템 및 방법을 제한하는 것이 아니라 예시적인것이다. 따라서 본 명세서에 설명된 시스템 및 방법의 범위는 전술한 설명이 아니라 첨부된 청구 범위에 의해 표시되며, 청구 범위의 등가의 의미 및 범위 내에서 발생하는 변경이 본 명세서에 포함된다.

Claims (34)

  1. 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템으로서,
    하나 이상의 프로세서 및 메모리를 포함하는 데이터 처리 시스템과, 상기 하나 이상의 프로세서는 자연어 프로세서 컴포넌트, 주석 컴포넌트 및 파싱 컴포넌트를 실행하여:
    자연어 프로세서 컴포넌트에 의해 데이터 처리 시스템의 인터페이스를 통해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제1 입력 오디오 신호를 수신하고;
    자연어 프로세서 컴포넌트에 의해, 제1 입력 오디오 신호에서 디지털 컴포넌트 요청을 식별하도록 제1 입력 오디오 신호를 파싱하고, 상기 디지털 컴포넌트 요청은 제1 디지털 컴포넌트를 나타내고, 상기 제1 디지털 컴포넌트는 시청각 컨텐츠를 포함하고;
    주석 컴포넌트에 의해, 제1 디지털 컴포넌트의 시청각 컨텐츠로부터 인식된 음성에 적어도 기초하여 제1 디지털 컴포넌트의 제1 주석 세트를 생성하고;
    파싱 컴포넌트에 의해, 제1 디지털 컴포넌트의 시청각 컨텐츠내의 복수의 부분을 정의하기 위해 적어도 제1 주석 세트에 기초하여 복수의 중단점을 식별하고;
    자연어 프로세서 컴포넌트에 의해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제2 입력 오디오 신호를 수신하고;
    자연어 프로세서 컴포넌트에 의해, 제2 입력 오디오 신호에서 용어를 식별하도록 제2 입력 오디오 신호를 파싱하고;
    파싱 컴포넌트에 의해, 제2 입력 오디오 신호의 용어 및 중단점을 식별하는데 사용되는 제1 주석 세트에 기초하여 복수의 중단점으로부터 중단점을 선택하고;
    파싱 컴포넌트에 의해, 제1 디지털 컴포넌트의 시청각 컨텐츠내의 복수의 부분으로부터, 복수의 중단점으로부터 선택된 중단점에 대응하는 부분을 식별하고; 그리고
    파싱 컴포넌트에 의해 클라이언트 컴퓨팅 디바이스로, 중단점에 대응하는 제1 디지털 컴포넌트로부터 식별된 부분을 전송하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  2. 제1항에 있어서,
    컨텐츠 선택 컴포넌트를 포함하여:
    복수의 중단점로부터 선택된 중단점에 기초하여 제2 디지털 컴포넌트를 선택하고; 그리고
    중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 제2 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스로 전송하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  3. 제1항에 있어서,
    상기 주석 컴포넌트는 디지털 컴포넌트의 이미지에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성하고; 그리고
    상기 파싱 컴포넌트는 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  4. 제1항에 있어서,
    상기 주석 컴포넌트는,
    디지털 컴포넌트의 폐쇄형 자막 데이터에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트을 생성하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  5. 제1항에 있어서,
    상기 주석 컴포넌트는 제2 클라이언트 컴퓨팅 디바이스로부터 제1 디지털 컴포넌트의 제2 주석 세트를 수신하고; 그리고
    상기 파싱 컴포넌트는 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  6. 제1항에 있어서,
    상기 파싱 컴포넌트는,
    디지털 컴포넌트에서 장면 전환을 식별하고; 그리고
    장면 전환에 기초하여 복수의 중단점을 식별하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  7. 제1항에 있어서,
    상기 자연어 프로세서 컴포넌트는,
    클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제3 입력 오디오 신호를 수신하고;
    제3 입력 오디오 신호를 분석하여 복수의 중단점 중 제2 중단점의 표시를 식별하고; 그리고
    상기 파싱 컴포넌트는 제2 중단점에 대응하는 제1 디지털 컴포넌트의 제2 부분을 클라이언트 컴퓨팅 디바이스로 전송하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  8. 제1항에 있어서,
    상기 자연어 프로세서 컴포넌트는 제1 입력 오디오 신호를 파싱하여 제1 입력 오디오 신호에서 제1 시맨틱 표현을 식별하고; 그리고
    상기 파싱 컴포넌트는 제1 시맨틱 의미에 기초하여 복수의 중단점으로부터 중단점을 선택하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  9. 제1항에 있어서,
    상기 파싱 컴포넌트는,
    복수의 중단점에 기초하여 제1 디지털 컴포넌트의 복수의 부분을 생성하고; 그리고
    제1 디지털 컴포넌트의 복수의 부분 각각에 대한 시맨틱 표현을 결정하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  10. 제9항에 있어서,
    상기 주석 컴포넌트는 제1 디지털 컴포넌트의 복수의 부분 각각에 대한 시맨틱 표현에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성하고; 그리고
    상기 파싱 컴포넌트는 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  11. 제1항에 있어서,
    상기 복수의 중단점 각각은 다른 장면의 시작점에 대응하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  12. 제1항에 있어서,
    상기 파싱 컴포넌트는,
    복수의 중단점 각각의 표시를 포함하는 제2 디지털 컴포넌트를 생성하고;그리고
    중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 프리젠테이션을 위해 제2 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스로 전송하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  13. 제12항에 있어서,
    상기 자연어 프로세서 컴포넌트는 클라이언트 컴퓨팅 디바이스로부터 복수의 중단점 중 하나의 선택을 포함하는 제3 입력 오디오 신호를 수신하고; 그리고
    상기 파싱 컴포넌트는 복수의 중단점 중 하나의 선택에 기초하여 복수의 중단점로부터 중단점을 선택하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
  14. 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법으로서,
    데이터 처리 시스템에 의해 실행되는 자연어 프로세서 컴포넌트에 의해 데이터 처리 시스템의 인터페이스를 통해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제1 입력 오디오 신호를 수신하는 단계;
    자연어 프로세서 컴포넌트에 의해, 제1 입력 오디오 신호에서 디지털 컴포넌트 요청을 식별하도록 제1 입력 오디오 신호를 파싱하는 단계, 상기 디지털 컴포넌트 요청은 제1 디지털 컴포넌트를 나타내고, 상기 제1 디지털 컴포넌트는 시청각 컨텐츠를 포함하고;
    데이터 처리 시스템에 의해 실행되는 주석 컴포넌트에 의해, 제1 디지털 컴포넌트의 시청각 컨텐츠로부터 인식된 음성에 적어도 기초하여 제1 디지털 컴포넌트의 제1 주석 세트를 생성하는 단계;
    데이터 처리 시스템에 의해 실행되는 파싱 컴포넌트에 의해, 제1 디지털 컴포넌트의 시청각 컨텐츠내의 복수의 부분을 정의하기 위해 적어도 제1 주석 세트에 기초하여 복수의 중단점을 식별하는 단계;
    자연어 프로세서 컴포넌트에 의해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제2 입력 오디오 신호를 수신하는 단계;
    자연어 프로세서 컴포넌트에 의해, 제2 입력 오디오 신호에서 용어를 식별하도록 제2 입력 오디오 신호를 파싱하는 단계;
    파싱 컴포넌트에 의해, 제2 입력 오디오 신호의 용어 및 중단점을 식별하는 데 사용되는 제1 주석 세트에 기초하여 복수의 중단점로부터 중단점을 선택하는 단계;
    파싱 컴포넌트에 의해, 제1 디지털 컴포넌트의 시청각 컨텐츠내의 복수의 부분으로부터, 복수의 중단점으로부터 선택된 중단점에 대응하는 부분을 식별하는 단계; 및
    파싱 컴포넌트에 의해 클라이언트 컴퓨팅 디바이스로, 중단점에 대응하는 제1 디지털 컴포넌트로부터 식별된 부분을 전송하는 단계를 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  15. 제14항에 있어서,
    데이터 처리 시스템에 의해 실행되는 컨텐츠 선택 컴포넌트에 의해, 복수의 중단점로부터 선택된 중단점에 기초하여 제2 디지털 컴포넌트를 선택하는 단계; 및
    컨텐츠 선택 컴포넌트에 의해, 중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 제2 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스로 전송하는 단계를 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  16. 제14항에 있어서,
    주석 컴포넌트에 의해, 디지털 컴포넌트의 이미지에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성하는 단계; 및
    파싱 컴포넌트에 의해, 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 단계를 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  17. 제14항에 있어서,
    주석 컴포넌트에 의해, 제2 클라이언트 컴퓨팅 디바이스로부터 제1 디지털 컴포넌트의 제2 주석 세트를 수신하는 단계; 및
    파싱 컴포넌트에 의해, 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 단계를 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  18. 제14항에 있어서,
    자연어 프로세서 컴포넌트에 의해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제3 입력 오디오 신호를 수신하는 단계;
    자연어 프로세서 컴포넌트에 의해, 복수의 중단점 중 제2 중단점의 표시를 식별하도록 제3 입력 오디오 신호를 파싱하는 단계; 및
    파싱 컴포넌트에 의해 클라이언트 컴퓨팅 디바이스로, 제2 중단점에 대응하는 제1 디지털 컴포넌트의 제2 부분을 전송하는 단계를 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  19. 제14항에 있어서,
    자연어 프로세서 컴포넌트에 의해, 제1 입력 오디오 신호에서 제1 시맨틱 표현을 식별하도록 제1 입력 오디오 신호를 파싱하는 단계; 및
    파싱 컴포넌트에 의해, 제1 시맨틱 의미에 기초하여 복수의 중단점으로부터 중단점을 선택하는 단계를 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  20. 제14항에 있어서,
    파싱 컴포넌트에 의해, 복수의 중단점 각각의 표시를 포함하는 제2 디지털 컴포넌트를 생성하는 단계;
    파싱 컴포넌트에 의해, 중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 프리젠테이션을 위해 제2 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스로 전송하는 단계;
    자연어 프로세서 컴포넌트에 의해 클라이언트 컴퓨팅 디바이스로부터, 복수의 중단점 중 하나의 선택을 포함하는 제3 입력 오디오 신호를 수신하는 단계; 및
    파싱 컴포넌트에 의해, 복수의 중단점 중 하나의 선택에 기초하여 복수의 중단점로부터 중단점을 선택하는 단계를 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  21. 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법으로서,
    데이터 처리 시스템에 의해 실행되는 자연어 프로세서 컴포넌트에 의해 상기 데이터 처리 시스템의 인터페이스를 통해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제1 입력 오디오 신호를 수신하는 단계;
    자연어 프로세서 컴포넌트에 의해, 제1 입력 오디오 신호에서 디지털 컴포넌트 요청을 식별하도록 제1 입력 오디오 신호를 파싱하는 단계, 상기 디지털 컴포넌트 요청은 제1 디지털 컴포넌트를 나타내고, 상기 제1 디지털 컴포넌트는 시청각 컨텐츠를 포함하고;
    데이터 처리 시스템에 의해 실행되는 주석 컴포넌트에 의해, 제1 디지털 컴포넌트의 시청각 컨텐츠로부터 인식된 음성에 적어도 기초하여 제1 디지털 컴포넌트의 제1 주석 세트를 생성하는 단계;
    데이터 처리 시스템에 의해 실행되는 파싱 컴포넌트에 의해, 제1 디지털 컴포넌트의 시청각 컨텐츠내의 복수의 부분을 정의하기 위해 적어도 제1 주석 세트에 기초하여 복수의 중단점을 식별하는 단계;
    자연어 프로세서 컴포넌트에 의해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제2 입력 오디오 신호를 수신하는 단계;
    자연어 프로세서 컴포넌트에 의해, 제2 입력 오디오 신호에서 용어를 식별하도록 제2 입력 오디오 신호를 파싱하는 단계;
    파싱 컴포넌트에 의해, 제2 입력 오디오 신호의 용어 및 중단점을 식별하는 데 사용되는 제1 주석 세트에 기초하여 복수의 중단점로부터 중단점을 선택하는 단계;
    파싱 컴포넌트에 의해, 제1 디지털 컴포넌트의 시청각 컨텐츠내의 복수의 부분으로부터, 복수의 중단점으로부터 선택된 중단점에 대응하는 부분을 식별하는 단계; 및
    파싱 컴포넌트에 의해 컴퓨팅 디바이스로, 중단점에 대응하는 제1 디지털 컴포넌트로부터 식별된 부분을 전송하는 단계를 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  22. 제21항에 있어서,
    데이터 처리 시스템에 의해 실행되는 컨텐츠 선택 컴포넌트에 의해, 복수의 중단점로부터 선택된 중단점에 기초하여 제2 디지털 컴포넌트를 선택하는 단계; 및
    컨텐츠 선택 컴포넌트에 의해, 중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 제2 디지털 컴포넌트를 클라이언트 컴퓨팅 디바이스로 전송하는 단계를 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  23. 제21항에 있어서,
    주석 컴포넌트에 의해, 디지털 컴포넌트의 이미지에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성하는 단계; 및
    파싱 컴포넌트에 의해, 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  24. 제21항에 있어서,
    주석 컴포넌트에 의해, 디지털 컴포넌트의 폐쇄형 자막 데이터에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트을 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  25. 제21항에 있어서,
    주석 컴포넌트에 의해, 제2 클라이언트 컴퓨팅 디바이스로부터 제1 디지털 컴포넌트의 제2 주석 세트를 수신하는 단계; 및
    파싱 컴포넌트에 의해, 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  26. 제21항에 있어서,
    파싱 컴포넌트에 의해, 디지털 컴포넌트의 장면 전환을 식별하는 단계; 및
    파싱 컴포넌트에 의해, 적어도 장면 전환에 기초하여 복수의 중단점을 식별하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  27. 제21항에 있어서,
    자연어 프로세서 컴포넌트에 의해, 클라이언트 컴퓨팅 디바이스에서 센서에 의해 검출된 제3 입력 오디오 신호를 수신하는 단계;
    자연어 프로세서 컴포넌트에 의해, 복수의 중단점 중 제2 중단점의 표시를 식별하도록 제3 입력 오디오 신호를 파싱하는 단계; 및
    파싱 컴포넌트에 의해 클라이언트 컴퓨팅 디바이스로, 제2 중단점에 대응하는 제1 디지털 컴포넌트의 제2 부분을 전송하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  28. 제21항에 있어서,
    자연어 프로세서 컴포넌트에 의해, 제1 입력 오디오 신호에서 제1 시맨틱 표현을 식별하도록 제1 입력 오디오 신호를 파싱하는 단계; 및
    파싱 컴포넌트에 의해, 제1 시맨틱 의미에 기초하여 복수의 중단점으로부터 중단점을 선택하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  29. 제21항에 있어서,
    파싱 컴포넌트에 의해, 복수의 중단점에 기초하여 제1 디지털 컴포넌트의 복수의 부분을 생성하는 단계; 및
    파싱 컴포넌트에 의해, 제1 디지털 컴포넌트의 복수의 부분 각각에 대한 시맨틱 표현을 결정하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  30. 제21항에 있어서,
    주석 컴포넌트에 의해, 제1 디지털 컴포넌트의 복수의 부분들 각각에 대한 시맨틱 표현에 기초하여 제1 디지털 컴포넌트의 제2 주석 세트를 생성하는 단계; 및
    파싱 컴포넌트에 의해, 적어도 제2 주석 세트에 기초하여 복수의 중단점을 식별하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  31. 제21항에 있어서,
    복수의 중단점 각각은 다른 장면의 시작점에 대응하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  32. 제21항에 있어서,
    파싱 컴포넌트에 의해, 복수의 중단점 각각의 표시를 포함하는 제2 디지털 컴포넌트를 생성하는 단계;
    파싱 컴포넌트에 의해, 중단점에 대응하는 제1 디지털 컴포넌트의 일부와 함께 프리젠테이션을 위해 클라이언트 컴퓨팅 디바이스로 제2 디지털 컴포넌트를 전송하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  33. 제32항에 있어서,
    자연어 프로세서 컴포넌트에 의해, 클라이언트 컴퓨팅 디바이스로부터 복수의 중단점 중 하나의 선택을 포함하는 제3 입력 오디오 신호를 수신하는 단계; 및
    파싱 컴포넌트에 의해, 복수의 중단점 중 하나의 선택에 기초하여 복수의 중단점로부터 중단점을 선택하는 단계를 더 포함하는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 방법.
  34. 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템으로서,
    하나 이상의 프로세서 및 메모리를 포함하는 데이터 처리 시스템을 포함하고, 상기 하나 이상의 프로세서는 자연어 프로세서 컴포넌트, 주석 컴포넌트 및 파싱 컴포넌트를 실행하여 청구항 제21항 내지 제33항 중 어느 한 항의 방법을 수행하도록 구성되는 것을 특징으로 하는 음성 작동 시스템에서 디지털 컴포넌트를 제어하는 시스템.
KR1020207028940A 2018-05-07 2019-04-08 네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색 KR102433255B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020227027672A KR102619568B1 (ko) 2018-05-07 2019-04-08 네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/973,447 2018-05-07
US15/973,447 US10733984B2 (en) 2018-05-07 2018-05-07 Multi-modal interface in a voice-activated network
PCT/US2019/026345 WO2019217018A1 (en) 2018-05-07 2019-04-08 Voice based search for digital content in a network

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020227027672A Division KR102619568B1 (ko) 2018-05-07 2019-04-08 네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색

Publications (2)

Publication Number Publication Date
KR20200130400A KR20200130400A (ko) 2020-11-18
KR102433255B1 true KR102433255B1 (ko) 2022-08-18

Family

ID=66248778

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020207028940A KR102433255B1 (ko) 2018-05-07 2019-04-08 네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색
KR1020227027672A KR102619568B1 (ko) 2018-05-07 2019-04-08 네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020227027672A KR102619568B1 (ko) 2018-05-07 2019-04-08 네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색

Country Status (6)

Country Link
US (3) US10733984B2 (ko)
EP (1) EP3685280A1 (ko)
JP (2) JP7021368B2 (ko)
KR (2) KR102433255B1 (ko)
CN (2) CN111279333B (ko)
WO (1) WO2019217018A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885903B1 (en) * 2018-12-10 2021-01-05 Amazon Technologies, Inc. Generating transcription information based on context keywords
CN109951743A (zh) * 2019-03-29 2019-06-28 上海哔哩哔哩科技有限公司 弹幕信息处理方法、系统及计算机设备
US11687588B2 (en) * 2019-05-21 2023-06-27 Salesforce.Com, Inc. Weakly supervised natural language localization networks for video proposal prediction based on a text query
JP7216175B1 (ja) 2021-11-22 2023-01-31 株式会社Albert 画像解析システム、画像解析方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120293522A1 (en) * 1996-12-05 2012-11-22 Interval Licensing Llc Browser for Use in Navigating a Body of Information, with Particular Application to Browsing Information Represented by Audiovisual Data

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6643620B1 (en) 1999-03-15 2003-11-04 Matsushita Electric Industrial Co., Ltd. Voice activated controller for recording and retrieving audio/video programs
JP2002007478A (ja) 2000-06-19 2002-01-11 Fuji Xerox System Service Co Ltd 視聴覚コンテンツ提供装置および方法
JP2002049625A (ja) 2000-08-04 2002-02-15 Telecommunication Advancement Organization Of Japan 画像検索装置および画像検索方法
US7996232B2 (en) 2001-12-03 2011-08-09 Rodriguez Arturo A Recognition of voice-activated commands
US6889191B2 (en) 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
WO2005076594A1 (en) * 2004-02-06 2005-08-18 Agency For Science, Technology And Research Automatic video event detection and indexing
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
JP4251634B2 (ja) * 2004-06-30 2009-04-08 株式会社東芝 マルチメディアデータ再生装置およびマルチメディアデータ再生方法
NO20043156A (no) * 2004-07-23 2006-01-23 Telenor Asa Anordning og fremgangsmåte for gjengivelse av audiovisuelt innhold
EP1805765A1 (en) * 2004-10-21 2007-07-11 Koninklijke Philips Electronics N.V. Method of annotating timeline files
JP2007013320A (ja) 2005-06-28 2007-01-18 Funai Electric Co Ltd 映像記録装置、コンテンツ記録装置、コンテンツ検索制御方法、および、コンテンツ検索プログラム
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US20080046406A1 (en) 2006-08-15 2008-02-21 Microsoft Corporation Audio and video thumbnails
JP2008276340A (ja) 2007-04-26 2008-11-13 Hitachi Ltd 検索装置
KR100966651B1 (ko) * 2008-01-16 2010-06-29 재단법인서울대학교산학협력재단 온톨로지 기반의 시맨틱 어노테이션 시스템 및 그 방법
US8487984B2 (en) 2008-01-25 2013-07-16 At&T Intellectual Property I, L.P. System and method for digital video retrieval involving speech recognition
US20090307741A1 (en) * 2008-06-09 2009-12-10 Echostar Technologies L.L.C. Methods and apparatus for dividing an audio/video stream into multiple segments using text data
US20100121973A1 (en) * 2008-11-12 2010-05-13 Yuliya Lobacheva Augmentation of streaming media
WO2011050280A2 (en) * 2009-10-22 2011-04-28 Chintamani Patwardhan Method and apparatus for video search and delivery
US9443518B1 (en) * 2011-08-31 2016-09-13 Google Inc. Text transcript generation from a communication session
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9304648B2 (en) 2013-06-26 2016-04-05 Google Inc. Video segments for a video related to a task
US20160300020A1 (en) * 2013-12-03 2016-10-13 3M Innovative Properties Company Constraint-based medical coding
US20190018893A1 (en) * 2014-05-12 2019-01-17 Google Inc. Determining tone differential of a segment
EP3192273A4 (en) 2014-09-08 2018-05-23 Google LLC Selecting and presenting representative frames for video previews
US9305530B1 (en) * 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
US11182431B2 (en) * 2014-10-03 2021-11-23 Disney Enterprises, Inc. Voice searching metadata through media content
US9633262B2 (en) * 2014-11-21 2017-04-25 Microsoft Technology Licensing, Llc Content interruption point identification accuracy and efficiency
US10372819B2 (en) * 2015-03-23 2019-08-06 International Business Machines Corporation Determining off-topic questions in a question answering system using probabilistic language models
US20170004139A1 (en) * 2015-06-30 2017-01-05 Coursera, Inc. Searchable annotations-augmented on-line course content
US20170092278A1 (en) 2015-09-30 2017-03-30 Apple Inc. Speaker recognition
US9928840B2 (en) 2015-10-16 2018-03-27 Google Llc Hotword recognition
US9747926B2 (en) 2015-10-16 2017-08-29 Google Inc. Hotword recognition
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10043517B2 (en) * 2015-12-09 2018-08-07 International Business Machines Corporation Audio-based event interaction analytics
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US11069340B2 (en) * 2017-02-23 2021-07-20 Microsoft Technology Licensing, Llc Flexible and expandable dialogue system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120293522A1 (en) * 1996-12-05 2012-11-22 Interval Licensing Llc Browser for Use in Navigating a Body of Information, with Particular Application to Browsing Information Represented by Audiovisual Data

Also Published As

Publication number Publication date
US20240062749A1 (en) 2024-02-22
WO2019217018A1 (en) 2019-11-14
KR20200130400A (ko) 2020-11-18
KR102619568B1 (ko) 2023-12-29
US20190341028A1 (en) 2019-11-07
JP7021368B2 (ja) 2022-02-16
US10733984B2 (en) 2020-08-04
US20200342856A1 (en) 2020-10-29
JP2021521525A (ja) 2021-08-26
JP2022070886A (ja) 2022-05-13
CN111279333B (zh) 2023-09-05
CN111279333A (zh) 2020-06-12
EP3685280A1 (en) 2020-07-29
US11776536B2 (en) 2023-10-03
KR20220116361A (ko) 2022-08-22
CN117150079A (zh) 2023-12-01
JP7311653B2 (ja) 2023-07-19

Similar Documents

Publication Publication Date Title
KR102433255B1 (ko) 네트워크에서 디지컬 컨텐츠에 대한 음성 기반 검색
US11848009B2 (en) Adaptive interface in a voice-activated network
KR102603717B1 (ko) 네트워크 시스템에서 도메인-특정 모델의 생성
US20200258523A1 (en) Activation of remote devices in a networked system
US20240185847A1 (en) Bit Vector-Based Content Matching for Third-Party Digital Assistant Actions

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant