TWI667916B - 多媒體內容播放方法和裝置 - Google Patents

多媒體內容播放方法和裝置 Download PDF

Info

Publication number
TWI667916B
TWI667916B TW107116116A TW107116116A TWI667916B TW I667916 B TWI667916 B TW I667916B TW 107116116 A TW107116116 A TW 107116116A TW 107116116 A TW107116116 A TW 107116116A TW I667916 B TWI667916 B TW I667916B
Authority
TW
Taiwan
Prior art keywords
multimedia content
information
aforementioned
voice
template
Prior art date
Application number
TW107116116A
Other languages
English (en)
Other versions
TW201941618A (zh
Inventor
武薇
王加鋒
羅俊楠
姜征浩
李靜
劉悅
王飛
張岩
Original Assignee
中國商百度在線網絡技術(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中國商百度在線網絡技術(北京)有限公司 filed Critical 中國商百度在線網絡技術(北京)有限公司
Application granted granted Critical
Publication of TWI667916B publication Critical patent/TWI667916B/zh
Publication of TW201941618A publication Critical patent/TW201941618A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25808Management of client data
    • H04N21/25816Management of client data involving client authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25875Management of end-user data involving end-user authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本案發明實施例公開了多媒體內容播放方法和裝置。該方法的一具體實施方式包括:響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊;將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配;回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令。該實施方式實現了多媒體內容獲取效率的提升。

Description

多媒體內容播放方法和裝置
本發明實施例關於電腦技術領域,具體關於網際網路技術領域,尤其關於多媒體內容播放方法和裝置。
隨著電腦技術的發展和使用者對於多樣化的內容獲取方式的需求的增長,產生了越來越多的多媒體內容。通常智慧電子設備可以根據使用者選擇來播放網路中的多媒體內容,或者可以主動向使用者推送一些多媒體內容,又或者可以將主動推送的多媒體內容與使用者選擇的多媒體內容組合為多媒體內容集合,依次播放集合中的多媒體內容。
目前的多媒體內容播放服務中,通常會在播放使用者選擇的多媒體內容之前播放一些推送的多媒體內容。如果使用者對推送的多媒體內容不感興趣,需要等待推送的多媒體內容播放結束,而在等待過程中用戶通常不會關注推送的多媒體內容,或者使用者可以購買跳過播放的服務直接跳過播放推送的多媒體內容,導致推送的多媒體內容的資訊不能快速有效地傳遞給用戶。
本案發明實施例提出了多媒體內容播放方法和裝置。
第一方面,本案發明實施例提供了一種多媒體內容播放方法,包括:響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊;將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配;回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令。
在一些實施例中,上述方法還包括:獲取當前多媒體內容的播放配置資訊,播放配置資訊包括當前多媒體內容的引導資訊、引導資訊的呈現方式資訊以及與引導資訊對應的範本資訊。
在一些實施例中,上述引導資訊用於引導使用者發出跳過播放當前多媒體內容的語音指令,上述範本資訊包括範本指令;上述對語音信號進行識別得到對應的語音資訊,包括:將語音信號轉換為對應的使用者指令文本;上述將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配,包括:將使用者指令文本與已獲取的引導資訊對應的範本指令進行語義匹配。
在一些實施例中,上述引導資訊和引導資訊對應的範本資訊包括按照如下方式確定的引導資訊和範本資訊:基於預設多媒體內容庫對當前多媒體內容進行解析,提取多媒體內容所包含的關鍵語句;將關鍵語句確定為範本資訊;獲取為關鍵語句配置的對應的引導資訊。
在一些實施例中,上述預設多媒體內容庫包括具有關鍵內容標識的多條多媒體內容;基於預設多媒體內容庫對當前多媒體內容進行解析,提取多媒體內容所包含的關鍵語句,包括:從當前多媒體內容的文本內容中提取出多個候選語句;確定預設多媒體內容庫中與當前多媒體內容具有相同的關鍵內容標識的多媒體內容為當前多媒體內容的關聯多媒體內容;確定預設多媒體內容庫中與當前多媒體內容具有不同的關鍵內容標識的多媒體內容為當前多媒體內容的非關聯多媒體內容;確定包含每個候選語句關聯多媒體內容的數量和包含每個候選語句的非關聯多媒體內容的數量;根據包含各候選語句的關聯多媒體內容的數量和非關聯多媒體內容的數量,從候選語句中確定出當前多媒體內容的關鍵語句。
在一些實施例中,上述回應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊,包括:回應於檢測到使用者根據引導資訊發出的語音信號,對語音信號的合法性進行驗證;回應於語音信號的合法性驗證通過,對語音信號進行語音辨識得到對應的語音資訊。
在一些實施例中,上述回應於檢測到使用者根據引導資訊發出的語音信號,對語音信號的合法性進行驗證,包括:回應於檢測到使用者根據引導資訊發出的語音信號,獲取使用者觀看當前多媒體內容所使用的播放設備和使用者帳戶的安全認證資訊;對播放設備的安全認證資訊和使用者帳戶的安全認證資訊進行認證;回應于播放設備的安全認證資訊和使用者帳戶的安全認證資訊均通過認證,確定語音信號的合法性驗證通過。
在一些實施例中,上述方法還包括:回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成用於提示用戶成功跳過當前播放的多媒體內容的第一提示資訊。
在一些實施例中,上述方法還包括:回應於確定語音資訊與引導資訊對應的範本資訊匹配失敗,生成用於提示用戶未成功跳過當前播放的多媒體內容的第二提示資訊。
第二方面,本案發明實施例提供了一種多媒體內容播放裝置,包括:識別單元,用於響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊;匹配單元,用於將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配;生成單元,用於回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令。
在一些實施例中,上述裝置還包括:獲取單元,用於獲取當前多媒體內容的播放配置資訊,播放配置資訊包括當前多媒體內容的引導資訊、引導資訊的呈現方式資訊以及與引導資訊對應的範本資訊。
在一些實施例中,上述引導資訊用於引導使用者發出跳過播放當前多媒體內容的語音指令,上述範本資訊包括範本指令;上述識別單元進一步用於按照如下方式對語音信號進行識別得到對應的語音資訊:將語音信號轉換為對應的使用者指令文本;上述匹配單元進一步用於按照如下方式將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配:將使用者指令文本與已獲取的引導資訊對應的範本指令進行語義匹配。
在一些實施例中,上述引導資訊和引導資訊對應的範本資訊包括按照如下方式確定的引導資訊和範本資訊:基於預設多媒體內容庫對當前多媒體內容進行解析,提取多媒體內容所包含的關鍵語句;將關鍵語句確定為範本資訊;獲取為關鍵語句配置的對應的引導資訊。
在一些實施例中,上述預設多媒體內容庫包括具有關鍵內容標識的多條多媒體內容;作為範本資訊的關鍵語句是按照如下方式提取的:從當前多媒體內容的文本內容中提取出多個候選語句;確定預設多媒體內容庫中與當前多媒體內容具有相同的關鍵內容標識的多媒體內容為當前多媒體內容的關聯多媒體內容;確定預設多媒體內容庫中與當前多媒體內容具有不同的關鍵內容標識的多媒體內容為當前多媒體內容的非關聯多媒體內容;確定包含每個候選語句關聯多媒體內容的數量和包含每個候選語句的非關聯多媒體內容的數量;根據包含各候選語句的關聯多媒體內容的數量和非關聯多媒體內容的數量,從候選語句中確定出當前多媒體內容的關鍵語句。
在一些實施例中,上述識別單元進一步用於按照如下方式對語音信號進行語音辨識得到對應的語音資訊:回應於檢測到使用者根據引導資訊發出的語音信號,對語音信號的合法性進行驗證;回應於語音信號的合法性驗證通過,對語音信號進行語音辨識得到對應的語音資訊。
在一些實施例中,上述識別單元進一步用於按照如下方式對語音信號的合法性進行驗證:回應於檢測到使用者根據引導資訊發出的語音信號,獲取使用者觀看當前多媒體內容所使用的播放設備和使用者帳戶的安全認證資訊;對播放設備的安全認證資訊和使用者帳戶的安全認證資訊進行認證;回應于播放設備的安全認證資訊和使用者帳戶的安全認證資訊均通過認證,確定語音信號的合法性驗證通過。
在一些實施例中,上述裝置還包括:第一提示單元,用於回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成用於提示用戶成功跳過當前播放的多媒體內容的第一提示資訊。
在一些實施例中,上述裝置還包括:第二提示單元,用於回應於確定語音資訊與引導資訊對應的範本資訊匹配失敗,生成用於提示用戶未成功跳過當前播放的多媒體內容的第二提示資訊。
協力廠商面,本案發明實施例提供了一種電子設備,包括:一個或多個處理器;儲存裝置,用於儲存一個或多個程式,當一個或多個程式被一個或多個處理器執行,使得一個或多個處理器實現如第一方面提供的多媒體內容播放方法。
第四方面,本案發明實施例提供了一種電腦可讀取媒體,其上儲存有電腦程式,其中,程式被處理器執行時實現第一方面提供的多媒體內容播放方法。
本案發明上述實施例的多媒體內容播放方法和裝置,通過回應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊;然後將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配;之後回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令,實現了多媒體內容獲取效率的提升。
具體實施方式
下面結合圖式和實施例對本案發明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用於解釋相關發明,而非對該發明的限定。另外還需要說明的是,為了便於描述,圖式中僅示出了與有關發明相關的部分。
需要說明的是,在不衝突的情況下,本案發明中的實施例及實施例中的特徵可以相互組合。下面將參考圖式並結合實施例來詳細說明本案發明。
圖1示出了可以應用本案發明的多媒體內容播放方法或多媒體內容播放裝置的示例性系統架構100。
如圖1所示,系統架構100可以包括終端設備101、102、103,網路104、以及伺服器105。網路104用以在終端設備101、102、103和伺服器105之間提供通訊連結的媒體。網路104可以包括各種連接類型,例如有線、無線通訊鏈路或者光纖電纜等等。
用戶110可以使用終端設備101、102、103通過網路104與伺服器105連結,以接收或發送消息等。終端設備101、102、103上可以安裝有各種多媒體播放類應用,例如影片播放用戶端、音訊播放用戶端、圖片流覽器、文字閱讀器等等。
終端設備101、102、103可以是具有顯示器並支援網際網路存取的各種電子設備,包括但不限於智慧手機、平板電腦、智慧手錶、筆記型電腦、膝上便攜型電腦、電子書閱讀器等。
伺服器105可以是為多媒體內容播放服務提供支援的多媒體內容播放伺服器,多媒體內容播放伺服器可以接收終端設備101、102、103發出的多媒體內容播放請求,並對多媒體播放內容請求進行解析,根據解析結果查找相應的多媒體內容,將查找到的多媒體內容返回給終端設備101、102、103。
需要說明的是,本案發明實施例所提供的多媒體內容播放方法可以由終端設備101、102、103或伺服器105執行,相應地,多媒體內容播放裝置可以設置於終端設備101、102、103或伺服器105中。
需要說明的是,伺服器可以是硬體,也可以是軟體。當伺服器為硬體時,可以實現成多個伺服器組成的分散式伺服器集群,也可以實現成單個伺服器。當伺服器為軟體時,可以實現成多個軟體或軟體模組(例如用來提供分散式服務的多個軟體模組),也可以實現成單個軟體或軟體模組。在此不做具體限定。
應該理解,圖1中的終端設備、網路、伺服器的數目僅僅是示意性的。根據實現需要,可以具有任意數目的終端設備、網路、伺服器。
繼續參考圖2,其示出了根據本案發明的多媒體內容播放方法的一個實施例的流程200。該多媒體內容播放方法,包括以下步驟:
步驟201,響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊。
在本實施例中,多媒體內容播放方法的執行主體(例如圖1所示的終端設備101、102、103或者伺服器105)可以檢測是否接收到使用者發出的語音信號,並判斷該語音信號是否為根據呈現的當前多媒體內容的引導資訊發出的。其中,引導資訊可以用於引導使用者執行特定操作的資訊。當前多媒體內容即當前播放的多媒體內容。多媒體內容可以包括但不限於:影片、音訊、圖片、文字。具體地,上述執行主體可以在播放當前多媒體內容的介面中呈現引導資訊,並在引導資訊的呈現過程中持續檢測是否接收到使用者發出的語音信號。例如引導資訊可以呈現5秒,則可以在引導資訊呈現的5秒之內持續檢測使用者是否發出語音信號。
當上述執行主體為播放當前多媒體內容的用戶端時,用戶端可以在呈現當前多媒體的引導資訊之後,通過音訊輸入介面捕獲使用者發出的語音信號。用戶端也可以捕獲到使用者發出的語音信號之後,立即將使用者的語音信號上報至提供多媒體內容播放服務的服務端。當上述執行主體為用於提供多媒體內容播放服務的服務端時,服務端可以檢測是否從播放當前多媒體內容的用戶端接收到使用者發出的語音信號。
在檢測到上述使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號之後,可以對語音信號進行解析,識別出語音信號對應的語音資訊。在這裡,語音資訊可以包括:用於表徵語音信號的聲音特徵的資訊和/或用於表徵語音信號所包含的語義的資訊。
在一種具體的實現方式中,可以將使用者發出的語音信號輸入已訓練的語音資訊識別模型,得到對應的語音資訊。在這裡,語音資訊識別模型可以是基於預設的樣本語音信號及樣本語音信號對應的語音資訊的標記結果,採用機器學習方法訓練得出的。在實踐中,可以標記樣本語音信號的語音資訊識別結果,利用待訓練的語音資訊識別模型預測樣本語音信號對應的語音資訊,之後根據語音資訊識別模型的預測結果與樣本語音信號的標記結果之間的差異反覆運算調整待訓練的語音資訊識別模型的參數,在語音資訊識別模型的預測結果與樣本語音信號的標記結果之間的差異滿足預設條件時停止反覆運算,得到訓練好的語音資訊識別模型。
在另一種具體的實現方式中,可以採用預先構建的語義模型對使用者發出的語音信號進行識別,該語義模型可以表徵切分語音幀後的語音信號與對應的語義資訊之間的關係,可以基於對大資料量的樣本語句的語義分析構建。上述執行主體可以利用語義模型直接解析得出語音信號對應的語義資訊,以及利用已有的音訊特徵提取方法從語音信號中提取出語音信號的聲音特徵,作為語音信號的識別結果。
上述執行主體可以在本地執行語音信號的識別操作,也可以將檢測到的語音信號上報至語音伺服器,例如可以以二進位流形式上報語音伺服器,然後接收語音伺服器對二進位語音流的語音辨識結果。對使用者發出的語音信號的識別結果即為對應的語音資訊。
上述引導資訊可以是預先為多媒體內容配置的。在實踐中,每條多媒體內容可以配置多個引導資訊,上述執行主體可以預先獲取多媒體內容的引導資訊並在多媒體內容播放時呈現。
在實際場景中,當使用者在觀看播放的多媒體內容時,可以在播放介面呈現預先配置的引導資訊,該引導資訊用於告知使用者發出相應的語音指令即可跳過播放的當前多媒體內容。例如,可以在播放某一影片片段時在播放介面提示使用者「說出XXX就可以跳過本影片」。使用者在接收到該引導資訊後,可以發出相應的語音信號來請求跳過播放當前影片片段。或者,當用戶在收聽新聞時,可以通過音訊輸出介面向使用者播報當前播放的新聞的音訊引導資訊,使用者在收聽到引導資訊之後可以發出語音信號,播放影片或音訊的設備可以檢測使用者的語音信號,並可以將語音信號發送至服務端來轉換為對應的語音資訊。
在本實施例的一些可選用的實現方式中,上述引導資訊可以用於引導使用者發出跳過播放前述當前多媒體內容的語音指令,上述範本資訊可以包括範本指令,範本指令可以用於指示執行跳過播放當前多媒體內容的操作。這時,可以通過如下方式對語音資訊進行識別得到對應的語音資訊:將語音信號轉換為對應的使用者指令文本。具體來說,可以通過如下方式對語音信號進行識別:首先對語音信號的波形進行聲學特徵提取和語音狀態切分,得到語音信號的聲學特徵和語音狀態切分結果,然後基於聲學模型對語音狀態切分結果進行估計,具體可以將語音狀態切分結果與聲學模型中各音素進行匹配,之後利用語言模型將聲學模型的匹配得出的音素組合為符合語法結構的識別結果。
步驟202,將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配。
每條引導資訊都配置有相應的範本資訊。在本實施例中,可以將識別出的語音資訊與引導資訊對應的範本資訊進行匹配。在這裡,可以直接計算語音資訊和範本資訊之間的匹配度,也可以將語音資訊所包含的語義與範本資訊的語義相匹配,還可以將語音資訊所包含的聲音特徵資訊與範本資訊所包含的聲音特徵資訊進行匹配。
在本實施例的一些可選的實現方式中,範本資訊可以包括範本指令,範本指令用於指示執行跳過播放當前多媒體內容的操作。同時,步驟201呈現的引導資訊用於引導使用者發出跳過播放前述當前多媒體內容的語音指令,且在步驟201中通過將語音信號轉換為對應的使用者指令文本來實現語音信號的識別。這時,可以將使用者指令文本與已獲取的前述引導資訊對應的範本指令進行語義匹配,來實現語音資訊與已獲取的引導資訊對應的範本資訊的匹配。在這裡,範本指令可以是預先配置的文本指令。可以通過將使用者指令文本與已獲取的引導資訊對應的範本指令進行語義匹配來判斷是否滿足跳過播放當前多媒體內容的條件。
可以採用多種方式對使用者指令文本和已獲取的引導資訊對應的範本指令進行語義匹配。一種可選的匹配方式為直接對使用者指令文本與上述引導資訊對應的範本指令進行文本內容的匹配,當匹配度超過預設的匹配度閾值時可以確定二者的語義一致,即使用者指令文本與引導資訊對應的範本指令的語義匹配成功,否則可以確定二者的語義匹配失敗。另一種可選的匹配方式可以為採用自然語言處理的方式對二者的語義進行匹配,具體可以對步驟201識別得出的使用者指令文本和已獲取的當前多媒體內容的引導資訊對應的範本指令進行語義解析,判斷二者的語義是否匹配。
具體來說,在採用自然語言處理的方式對上述使用者指令文本與上述範本指令進行語義匹配時,可以首先對使用者指令文本和範本指令切詞,採用語言模型將使用者指令文本和範本指令轉換為向量,利用轉換後的向量計算使用者指令文本和範本指令之間的相似度。也可以採用已訓練的深度神經網路計算使用者指令文本與範本指令的匹配度。該已訓練的深度神經網路可以是基於已標記語義匹配結果的樣本文本對訓練得出的。
步驟203,回應於確定語音資訊與引導資訊對應的範本資訊的語義匹配成功,生成執行跳過播放當前多媒體內容的操作的命令。
若步驟202中使用者的語音信號對應的語音資訊與引導資訊對應的範本資訊匹配成功,可以確定滿足跳過播放當前多媒體內容的條件,上述執行主體可以生成執行跳過播放當前多媒體內容的命令。當上述執行主體是提供多媒體內容播放服務的服務端時,該執行主體可以將生成的命令發送至播放當前多媒體內容的用戶端。當上述執行主體是播放多媒體內容的用戶端時,上述執行主體可以生成執行跳過播放當前多媒體內容的命令並執行該命令,從而跳過播放當前多媒體內容。
在實踐中,執行跳過播放當前多媒體內容的操作可以是將播放節點切換到當前多媒體內容的結尾處,或者切換至下一條多媒體內容的起始播放點進行播放,也可以是繼續播放當前多媒體內容預設時間之後(例如3秒之後)將播放節點切換至下一條多媒體內容的起始播放點。
本案發明上述實施例的多媒體內容播放方法,通過回應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊;然後將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配;之後回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令,實現了多媒體內容獲取效率的提升。
在一些實施例中,上述多媒體內容播放方法還可以包括:獲取當前多媒體內容的播放配置資訊,播放配置資訊包括當前多媒體內容的引導資訊、引導資訊的呈現方式資訊以及與引導資訊對應的範本資訊。在這裡,播放配置資訊可以是在多媒體內容創建時配置好的資訊。多媒體內容的創建者可以為多媒體內容配置播放配置資訊。可選地,創建者可以為多媒體內容配置多條引導資訊、並配置各條引導資訊的呈現方式資訊以及與各條引導資訊分別對應的範本資訊。引導資訊可以例如為包括問題和答案的問答式引導語,或者可以例如為告知用戶通過閱讀某一語句可跳過播放當前多媒體內容的陳述式引導語。引導資訊的呈現方式資訊可以是用於描述引導資訊的呈現方式的資訊,可以包括引導資訊的呈現時間點、呈現時長、呈現次數、重複呈現的時間間隔(例如每隔20秒呈現一次)、在播放介面中的呈現位置、展示樣式(例如以懸浮視窗方式展示)等資訊。在播放當前多媒體內容時,可以根據當前多媒體內容的標識獲取對應的播放配置資訊。
在一個示例性的場景中,使用者選擇播放某一影片之後,視訊伺服器可以將廣告插入至使用者選擇的影片之前進行播放。可以為每條廣告配置多條引導資訊,並配置每條引導語的呈現方式及對應的範本資訊。其中引導資訊可以是文字、圖片、影片或音訊,呈現方式可以例如為機器人舉牌式、文字滾動式、持續呈現5秒、每隔10秒呈現一次等。當使用者根據引導資訊發出語音指令,並且該語音指令與該條廣告中當前呈現的引導資訊對應的範本資訊匹配時,可以跳過當前廣告的播放。
在上述實施例的一些可選的實現方式中,上述引導資訊和引導資訊對應的範本資訊可以是按照如下方式確定的:基於預設多媒體內容庫對當前多媒體內容進行解析,提取多媒體內容所包含的關鍵語句;將關鍵語句確定為範本資訊;獲取為關鍵語句配置的對應的引導資訊。
預設多媒體內容庫可以包括多條多媒體內容,例如在實踐中預設多媒體內容庫可以為包含多條廣告的廣告庫。可以對預設多媒體內容庫中的多媒體內容進行解析,分析多媒體內容的關鍵內容,並採用基於主題模型或基於文本內容的分析方法提取出每條多媒體內容所包含的關鍵語句。該關鍵語句可以作為多媒體內容所提供的核心資訊,可以是多媒體內容所包含的文本內容中資訊最豐富、且最能將其所代表的多媒體內容與預設多媒體內容庫中的其他多媒體內容所包含的資訊區分開的語句。還可以計算多媒體內容所包含的每個語句的資訊熵、並結合與預設多媒體內容庫中其他多媒體內容的關鍵語句之間的差異度或相似度進行當前多媒體內容的關鍵語句的選擇。
進一步可選地,上述預設多媒體內容庫可以包括具有預設關鍵內容標識的多條多媒體內容。關鍵內容標識可以是用於表徵多媒體內容中的核心內容的標籤,可以是預先配置的。舉例來說,影片廣告類的多媒體內容的關鍵內容標識可以是影片廣告中的品牌名稱。上述執行主體可以按照如下方式提取多媒體內容所包含的關鍵語句:從當前多媒體內容的文本內容中提取出多個候選語句,確定預設多媒體內容庫中與當前多媒體內容具有相同的關鍵內容標識的多媒體內容為當前多媒體內容的關聯多媒體內容,確定預設多媒體內容庫中與當前多媒體內容具有不同的關鍵內容標識的多媒體內容為當前多媒體內容的非關聯多媒體內容,確定包含每個候選語句關聯多媒體內容的數量和包含每個候選語句的非關聯多媒體內容的數量,最後根據包含各候選語句的關聯多媒體內容的數量和非關聯多媒體內容的數量,從候選語句中確定出當前多媒體內容的關鍵語句。
具體來說,在對目標多媒體內容提取關鍵語句時,可以首先從目標多媒體中提取出多個候選語句,例如可以簡單地將目標多媒體內容的文本內容切分為多個候選語句。可以將預設多媒體內容庫中的多媒體內容按照與目標多媒體的內容的關鍵內容標識是否一致,來將預設多媒體內容庫中的多媒體內容劃分為關聯多媒體內容和非關聯多媒體內容。之後可以統計包含每個候選語句的關聯多媒體內容的數量和非關聯多媒體內容的數量。對每個候選語句,包含該候選語句的關聯多媒體內容的數量越大、包含該候選語句的非關聯多媒體內容的數量越小,則該候選語句被確定為目標多媒體內容的關鍵語句的概率越大。在具體的實現中,可以將包含該候選語句的關聯多媒體內容的數量與包含該候選語句的非關聯多媒體內容的數量之差作為候選語句的重要度指數,依據重要度指數對各候選語句進行降冪排序,排序第一位的候選語句即為目標多媒體內容的關鍵語句。
作為示例,在提取影片廣告的關鍵語句時,可以將影片廣告中資訊熵大於預設資訊熵閾值的語句作為候選語句。然後可以統計廣告庫中同品牌的影片廣告中包含各候選語句的影片廣告的第一數量,統計不同品牌的影片廣告中包含各候選語句的影片廣告的第二數量,然後計算每個候選語句的第一數量和第二數量之差,第一數量和第二數量之差最大的候選語句作為提取出的關鍵語句。
之後,可以將提取出的關鍵語句作為當前多媒體內容的範本資訊,然後可以獲取為該範本資訊配置的對應的引導資訊。也就是說,可以將提取出的關鍵語句作為可跳過播放當前多媒體內容的範本資訊,然後可以根據該範本資訊的內容配置引導語,生成該範本資訊對應的引導資訊。例如當提取出的關鍵語句為某一品牌的口號時,可以為其配置引導資訊為「我們的口號是什麼」。
通過上述關鍵語句的提取方法,可以從多媒體內容中提取出可將具有不同關鍵內容標識的多媒體內容區分開的關鍵語句,這樣提升了關鍵語句的區分能力,進而在通過引導用戶發出與該關鍵語句匹配的語音指令時,可以提升使用者識記該多媒體內容的關鍵資訊的效率,同時可以幫助使用者更好地將該多媒體內容與其他多媒體內容區分。
在上述實施例的一些可選的實現方式中,多媒體內容播放方法還可以包括:回應于確定使用者指令文本與引導資訊對應的範本資訊匹配成功,生成用於提示用戶成功跳過當前播放的多媒體內容的第一提示資訊。該第一提示資訊可以具有預先配置的展示方式,展示方式可以例如包括播放介面的預設位置展示,預設展示時長、預設字體等。當播放多媒體內容的用戶端獲取到第一提示資訊後,可以按照預先配置的展示方式展示第一提示資訊,以告知使用者成功跳過當前播放的多媒體內容。
在上述實施例的一些可選的實現方式中,多媒體內容播放方法還可以包括:回應于確定使用者指令文本與引導資訊對應的範本資訊匹配失敗,生成用於提示用戶未成功跳過當前播放的多媒體內容的第二提示資訊。在使用者指令文本與上述範本資訊匹配失敗時,可以生成第二提示資訊。第二提示資訊也可以具有預先設定的展示方式,則在播放多媒體內容的用戶端獲取到第二提示資訊後,可以按照其相應的展示方式展示第二提示資訊。可選地,第二提示資訊還可以包含用於提示使用者重新輸入語音信號來觸發跳過播放操作的內容。
可選地,上述第一提示資訊、第二提示資訊以及第一提示資訊和第二提示資訊的展示方式都可以是預先設置、並包含於多媒體內容的播放配置資訊中的。這樣,可以通過上述獲取多媒體內容的播放配置資訊的操作獲取第一提示資訊、第二提示資訊以及第一提示資訊和第二提示資訊的展示方式。在使用者指令文本與上述範本資訊匹配成功或匹配失敗時,從已獲取的播放配置資訊中提取出相應的第一提示資訊或第二提示資訊。
通過上述第一提示資訊和/或第二提示資訊,可以進一步增強使用者在交互過程中的沉浸感,有利於提升使用者對當前多媒體內容的關注度。
請參考圖3,其示出了根據本案發明的多媒體內容播放方法的一個應用場景的示意圖。
如圖3所示,終端設備A在播放影片時,影片介面中可以呈現用於提示用戶可通過「說出本影片中的產品的品牌標語即可跳過該段影片」的引導語,使用者觀看到影片中的引導語後,可以按照引導語說出產品名稱,終端設備A可以檢測到使用者發出的語音信號B,通過語音辨識解析出用戶所說的品牌標語,然後與預先獲取的影片的範本資訊——即影片中的產品的品牌標語進行匹配,若匹配成功,則可以生成並向用戶推送「即將跳過本影片」的第一提示資訊。
在圖3的場景中,若用戶所說的品牌標語與影片中的產品的品牌標語匹配不成功,還可以生成並向用戶推送「您的表述不正確,請再試一次哦」的第二提示資訊。
繼續參考圖4,其示出了根據本案發明的多媒體內容播放方法的另一個實施例的流程圖。如圖4,本實施例的多媒體內容播放方法的流程400,包括以下步驟:
步驟401,響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號的合法性進行驗證。
在本實施例中,多媒體內容播放方法的執行主體(例如圖1所示的終端設備101、102、103或者伺服器105)可以檢測是否接收到使用者發出的語音信號,並判斷該語音信號是否為根據呈現的當前多媒體內容的引導資訊發出的。其中,引導資訊可以是文字、語音等形式的用於引導用戶發出跳過播放當前多媒體內容的語音指令的資訊。在確定語音信號是根據引導資訊發出的之後,可以通過多種方式對語音信號和合法性進行驗證。
在一種具體的實現方式中,可以校驗語音信號的強度是否超過預設的強度閾值,從而判斷語音信號是否由正在觀看當前多媒體內容的使用者發出,同時可以判斷語音信號強度是否足夠大,進而確保語音辨識結果的準確性。當語音信號的強度低於預設的強度閾值時,可以確定語音信號的合法性驗證未通過。
在本實施例的一些可選的實現方式中,可以採用如下方式對上述語音信號的合法性進行驗證:回應於檢測到使用者根據引導資訊發出的語音信號,獲取使用者觀看當前多媒體內容所使用的播放設備和使用者帳戶的安全認證資訊;對播放設備的安全認證資訊和使用者帳戶的安全認證資訊進行認證;回應于播放設備的安全認證資訊和使用者帳戶的安全認證資訊均通過認證,確定語音信號的合法性驗證通過。
具體地,可以通過用戶登錄時提交的使用者帳戶的安全認證資訊來執行對使用者身份的安全驗證。用戶登錄用戶帳戶後獲取存取權杖(Access Token),該存取權杖即為使用者帳戶的安全認證資訊。提供多媒體內容播放服務的服務端或者播放多媒體內容的用戶端通過該存取權杖可校驗用戶的身份,從而校驗語音信號的合法性。播放設備的安全位址可以包括播放設備的網路位址、設備ID、播放設備與提供多媒體內容播放服務的服務端之間的進行安全認證的ssl(Secure socket layer,安全套接層)證書等,可以通過校驗播放設備的網路位址、設備ID、ssl證書來對播放設備的安全性進行驗證,從而校驗播放設備接收的語音信號的安全性。這樣可以保證用戶端和服務端之間的雙向校驗,防止服務端後臺被劫持後無法播放多媒體內容,提升使用者交交互操作的安全性。
播放設備的安全認證資訊和使用者帳戶的安全認證資訊均通過認證之後,可以確定語音信號通過合法性驗證;若播放設備的安全認證資訊和使用者帳戶的安全認證資訊中的至少一個未通過驗證,則可以確定語音信號未通過合法性驗證。這時,上述執行主體可以遮罩不合法的語音信號,不執行後續的語音辨識等操作。
步驟402,回應於語音信號的合法性驗證通過,對語音信號進行語音辨識得到對應的語音資訊。
在本實施例中,在語音信號的合法性驗證通過之後,可以採用語音對語音信號進行特徵提取,並基於提取的特徵進行語義等的識別,得到對應的語音資訊。
步驟403,將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配。
在這裡,範本資訊可以是預先配置的資訊。在本實施例中,可以通過將使用者的語音信號對應的語音資訊與已獲取的引導資訊對應的範本資訊進行匹配來判斷是否滿足跳過播放當前多媒體內容的條件。
步驟404,回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令。
若步驟403中語音資訊與引導資訊對應的範本資訊匹配成功,可以確定滿足跳過播放當前多媒體內容的條件,上述執行主體可以生成執行跳過播放當前多媒體內容的命令。當上述執行主體是提供多媒體內容播放服務的服務端時,該執行主體可以將生成的命令發送至播放當前多媒體內容的用戶端。當上述執行主體是播放多媒體內容的用戶端時,上述執行主體可以生成執行跳過播放當前多媒體內容的命令並跳過播放當前多媒體內容。
需要說明的是,上述多媒體播放方法的流程400中的步驟402中對語音信號進行識別得到對應的語音資訊的操作、步驟403、步驟404分別與前述實施例中步驟201、步驟202、步驟203的具體實現方式相同,上文針對步驟201、步驟202、步驟203的描述也適用於對步驟402中對語音信號進行語音辨識得到對應的使用者指令文本的操作、步驟403、步驟404。
此外,上文針對圖2所示的多媒體內容播放方法的實施例的各可選實現方式也可以應用於圖4所示的多媒體內容播放方法的實施例,此處不再贅述。
本案發明上述實施例提供的播放多媒體內容的方法流程400,在圖2所示實施例的基礎上增加了對使用者的語音信號的合法性進行驗證的步驟,由此提升了播放多媒體內容過程中對使用者交交互操作的安全防護性能。
進一步參考圖5,作為對上述各圖所示方法的實現,本案發明提供了一種多媒體內容播放裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應用於各種電子設備中。
如圖5所示,本實施例的多媒體內容播放裝置500包括:識別單元501、匹配單元502以及生成單元503。識別單元501可以用於響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊;匹配單元502可以用於將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配;生成單元503可以用於回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令。
在本實施例中,識別單元501可以檢測是否接收到使用者發出的語音信號,並判斷該語音信號是否為根據呈現的當前多媒體內容的引導資訊發出的。在檢測到上述使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號之後,可以對語音信號進行解析,識別出語音信號對應的語音資訊。語音資訊可以包括用於表徵語音信號的聲音特徵的資訊和/或用於表徵語音信號所包含的語義的資訊。
匹配單元502可以採用多種方式對識別單元501得出的語音資訊和已獲取的引導資訊對應的範本資訊進行匹配。例如可以直接對語音資訊與上述引導資訊對應的範本資訊進行文本內容的匹配,當匹配度超過預設的匹配度閾值時可以確定二者的語義匹配成功。又例如可以採用自然語言處理方法對文本形式或轉換為特徵向量表示的語音資訊和已獲取的引導資訊對應的範本資訊的語義進行匹配。
生成單元503可以在匹配單元502確定匹配成功時確定滿足跳過播放當前多媒體內容的條件,進而生成執行跳過播放當前多媒體內容的操作的命令。
在一些可選的實現方式中,裝置500還可以包括:獲取單元,用於獲取當前多媒體內容的播放配置資訊,播放配置資訊包括當前多媒體內容的引導資訊、引導資訊的呈現方式資訊以及與引導資訊對應的範本資訊。
在一些可選的實現方式中,上述引導資訊可以用於引導使用者發出跳過播放前述當前多媒體內容的語音指令,上述範本資訊可以包括範本指令,上述識別單元501可以進一步用於按照如下方式對語音信號進行識別得到對應的語音資訊:將語音信號轉換為對應的使用者指令文本;上述匹配單元502可以進一步用於按照如下方式將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配:將使用者指令文本與已獲取的引導資訊對應的範本指令進行語義匹配。
在一些可選實現方式中,上述引導資訊和引導資訊對應的範本資訊可以包括按照如下方式確定的引導資訊和範本資訊:基於預設多媒體內容庫對當前多媒體內容進行解析,提取多媒體內容所包含的關鍵語句;將關鍵語句確定為範本資訊;獲取為關鍵語句配置的對應的引導資訊。
在進一步的可選實現方式中,預設多媒體內容庫包括具有關鍵內容標識的多條多媒體內容;作為範本資訊的關鍵語句可以是按照如下方式提取的:從當前多媒體內容的文本內容中提取出多個候選語句;確定預設多媒體內容庫中與當前多媒體內容具有相同的關鍵內容標識的多媒體內容為當前多媒體內容的關聯多媒體內容;確定預設多媒體內容庫中與當前多媒體內容具有不同的關鍵內容標識的多媒體內容為當前多媒體內容的非關聯多媒體內容;確定包含每個候選語句關聯多媒體內容的數量和包含每個候選語句的非關聯多媒體內容的數量;根據包含各候選語句的關聯多媒體內容的數量和非關聯多媒體內容的數量,從候選語句中確定出當前多媒體內容的關鍵語句。
在一些可選的實現方式中,上述識別單元501可以進一步用於按照如下方式對語音信號進行語音辨識得到對應的語音資訊:回應於檢測到使用者根據引導資訊發出的語音信號,對語音信號的合法性進行驗證;回應於語音信號的合法性驗證通過,對語音信號進行語音辨識得到對應的語音資訊。
在一些可選的實現方式中,上述識別單元501可以進一步用於按照如下方式對語音信號的合法性進行驗證:回應於檢測到使用者根據引導資訊發出的語音信號,獲取使用者觀看當前多媒體內容所使用的播放設備和使用者帳戶的安全認證資訊;對播放設備的安全認證資訊和使用者帳戶的安全認證資訊進行認證;回應于播放設備的安全認證資訊和使用者帳戶的安全認證資訊均通過認證,確定語音信號的合法性驗證通過。
在一些可選的實現方式中,裝置500還可以包括:第一提示單元,用於回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成用於提示用戶成功跳過當前播放的多媒體內容的第一提示資訊。
在一些可選的實現方式中,裝置500還可以包括:第二提示單元,用於回應於確定語音資訊與引導資訊對應的範本資訊匹配失敗,生成用於提示用戶未成功跳過當前播放的多媒體內容的第二提示資訊。
裝置500中記載的諸單元與參考圖2和圖4描述的方法中的各個步驟相對應。由此,上文針對方法描述的操作和特徵同樣適用於裝置500及其中包含的單元,在此不再贅述。
本案發明上述實施例的多媒體內容播放裝置,通過識別單元回應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊;匹配單元將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配;生成單元回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令,實現了多媒體內容獲取效率的提升。
下面參考圖6,其示出了適於用來實現本案發明實施例的電子設備的電腦系統600的結構示意圖。圖6示出的電子設備僅僅是一個示例,不應對本案發明實施例的功能和使用範圍帶來任何限制。
如圖6所示,電腦系統600包括中央處理單元(CPU)601,其可以根據儲存在唯讀記憶體(ROM)602中的程式或者從儲存部分608載入到隨機存取記憶體(RAM)603中的程式而執行各種適當的動作和處理。在RAM 603中,還儲存有系統600操作所需的各種程式和資料。CPU 601、ROM 602以及RAM 603通過匯流排604彼此相連。輸入/輸出(I/O)介面605也連接至匯流排604。
以下部件連接至I/O介面605:包括鍵盤、滑鼠等的輸入部分606;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分607;包括硬碟等的儲存部分608;以及包括諸如LAN卡、數據機等的網路介面卡的通信部分609。通信部分609經由諸如網際網路的網路執行通信處理。驅動器610也根據需要連接至I/O介面605。可移除媒體611,諸如磁片、光碟、磁碟、半導體記憶體等等,根據需要安裝在驅動器610上,以便於從其上讀出的電腦程式根據需要被安裝入儲存部分608。
特別地,根據本公開的實施例,上文參考流程圖描述的過程可以被實現為電腦軟體程式。例如,本公開的實施例包括一種電腦程式產品,其包括承載在電腦可讀取媒體上的電腦程式,該電腦程式包含用於執行流程圖所示的方法的程式碼。在這樣的實施例中,該電腦程式可以通過通信部分609從網路上被下載和安裝,和/或從可移除媒體611被安裝。在該電腦程式被中央處理單元(CPU)601執行時,執行本案發明的方法中限定的上述功能。需要說明的是,本案發明的電腦可讀取媒體可以是電腦可讀信號媒體或者電腦可讀儲存媒體或者是上述兩者的任意組合。電腦可讀儲存媒體例如可以是電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合,但不限於此。電腦可讀儲存媒體的更具體的例子可以包括但不限於:具有一個或多個導線的電連接、可攜式電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除式可程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、可攜式磁碟唯讀記憶體(CD-ROM)、光記憶體件、磁記憶體件、或者上述的任意合適的組合。在本案發明中,電腦可讀儲存媒體可以是任何包含或儲存程式的有形媒體,該程式可以被指令執行系統、裝置或者器件使用或者與其結合使用。而在本案發明中,電腦可讀的信號媒體可以包括在基帶中或者作為載波一部分傳播的資料信號,其中承載了電腦可讀的程式碼。這種傳播的資料信號可以採用多種形式,包括但不限於電磁信號、光信號或上述的任意合適的組合。電腦可讀的信號媒體還可以是電腦可讀儲存媒體以外的任何電腦可讀取媒體,該電腦可讀取媒體可以發送、傳播或者傳輸用於由指令執行系統、裝置或者器件使用或者與其結合使用的程式。電腦可讀取媒體上包含的程式碼可以用任何適當的媒體傳輸,包括但不限於:無線、電線、光纜、RF等等,或者上述的任意合適的組合。
可以以一種或多種程式設計語言或其組合來編寫用於執行本案發明的操作的電腦程式碼,程式設計語言包括物件導向的程式設計語言—諸如Java、Smalltalk、C++,還包括常規的過程式程式設計語言—諸如「C」語言或類似的程式設計語言。程式碼可以完全地在使用者電腦上執行、部分地在使用者電腦上執行、作為一個獨立的套裝軟體執行、部分在使用者電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以通過任意種類的網路(包括局域網(LAN)或廣域網路(WAN))連接到使用者電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供者來通過網際網路連接)。
圖式中的流程圖和方塊圖,圖示了按照本案發明各種實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方框可以代表一個模組、程式段、或程式碼的一部分,該模組、程式段、或程式碼的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所標注的功能也可以以不同於圖式中所標注的順序發生。例如,兩個接連地表示的方框實際上可以基本並行地執行,它們有時也可以按相反的循序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方框、以及方塊圖和/或流程圖中的方框的組合,可以用執行規定的功能或操作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
描述於本案發明實施例中所涉及到的單元可以通過軟體的方式實現,也可以通過硬體的方式來實現。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括識別單元、匹配單元和生成單元。其中,這些單元的名稱在某種情況下並不構成對該單元本身的限定,例如,識別單元還可以被描述為「回應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊的單元」。
作為另一方面,本案發明還提供了一種電腦可讀取媒體,該電腦可讀取媒體可以是上述實施例中描述的裝置中所包含的;也可以是單獨存在,而未裝配入該裝置中。上述電腦可讀取媒體承載有一個或者多個程式,當上述一個或者多個程式被該裝置執行時,使得該裝置:響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊;將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配;回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令。
以上描述僅為本案發明的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本案發明中所涉及的發明範圍,並不限於上述技術特徵的特定組合而成的技術方案,同時也應涵蓋在不脫離上述發明構思的情況下,由上述技術特徵或其等同特徵進行任意組合而形成的其它技術方案。例如上述特徵與本案發明中公開的(但不限於)具有類似功能的技術特徵進行互相替換而形成的技術方案。
100‧‧‧系統架構
101、102、103‧‧‧終端設備
104‧‧‧網路
105‧‧‧伺服器
201‧‧‧響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號進行識別得到對應的語音資訊
202‧‧‧將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配
203‧‧‧回應於確定語音資訊與引導資訊對應的範本資訊的語義匹配成功,生成執行跳過播放當前多媒體內容的操作的命令
401‧‧‧響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,對語音信號的合法性進行驗證
402‧‧‧回應於語音信號的合法性驗證通過,對語音信號進行語音辨識得到對應的語音資訊
403‧‧‧將語音資訊與已獲取的引導資訊對應的範本資訊進行匹配
404‧‧‧回應於確定語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令
500‧‧‧多媒體內容播放裝置
501‧‧‧識別單元
502‧‧‧匹配單元
503‧‧‧生成單元
600‧‧‧電腦系統
601‧‧‧中央處理單元(CPU)
602‧‧‧唯讀記憶體(ROM)
603‧‧‧隨機存取記憶體(RAM)
604‧‧‧匯流排
605‧‧‧輸入/輸出(I/O)介面
606‧‧‧輸入部分
607‧‧‧輸出部分
608‧‧‧儲存部分
609‧‧‧通信部分
610‧‧‧驅動器
611‧‧‧可移除媒體
通過閱讀參照以下圖式所作的對非限制性實施例所作的詳細描述,本案發明的其它特徵、目的和優點將會變得更明顯: 圖1是本案發明可以應用於其中的示例性系統架構圖; 圖2是根據本案發明的多媒體內容播放方法的一個實施例的流程圖; 圖3是根據本案發明的多媒體內容播放方法的一個應用場景的示意圖; 圖4是根據本案發明的多媒體內容播放方法的另一個實施例的流程圖; 圖5是根據本案發明的多媒體內容播放裝置的一個結構示意圖; 圖6是適於用來實現本案發明實施例的伺服器的電腦系統的結構示意圖。

Claims (16)

  1. 一種多媒體內容播放方法,包括:響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,獲取使用者觀看前述當前多媒體內容所使用的播放設備和使用者帳戶的安全認證資訊;對前述播放設備的安全認證資訊和前述使用者帳戶的安全認證資訊進行認證;回應於前述播放設備的安全認證資訊和前述使用者帳戶的安全認證資訊均通過認證,確定前述語音信號的合法性驗證通過;回應於前述語音信號的合法性驗證通過,對前述語音信號進行識別得到對應的語音資訊;將前述語音資訊與已獲取的前述引導資訊對應的範本資訊進行匹配;回應於確定前述語音資訊與前述引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令。
  2. 如申請專利範圍第1項所記載的方法,其中,前述方法還包括:獲取當前多媒體內容的播放配置資訊,前述播放配置資訊包括前述當前多媒體內容的引導資訊、前述引導資訊的呈現方式資訊以及與前述引導資訊對應的範本資訊。
  3. 如申請專利範圍第1項所記載的方法,其中,前述引導資訊用於引導使用者發出跳過播放前述當前多媒體內容的語音指令,前述範本資訊包括範本指令;前述對前述語音信號進行識別得到對應的語音資訊,包括:將前述語音信號轉換為對應的使用者指令文本;前述將前述語音資訊與已獲取的前述引導資訊對應的範本資訊進行匹配,包括:將前述使用者指令文本與已獲取的前述引導資訊對應的範本指令進行語義匹配。
  4. 如申請專利範圍第1項所記載的方法,其中,前述引導資訊和前述引導資訊對應的範本資訊包括按照如下方式確定的引導資訊和範本資訊:基於預設多媒體內容庫對前述當前多媒體內容進行解析,提取前述多媒體內容所包含的關鍵語句;將前述關鍵語句確定為前述範本資訊;獲取為前述關鍵語句配置的對應的引導資訊。
  5. 如申請專利範圍第4項所記載的方法,其中,前述預設多媒體內容庫包括具有關鍵內容標識的多條多媒體內容;前述基於預設多媒體內容庫對前述當前多媒體內容進行解析,提取前述多媒體內容所包含的關鍵語句,包括:從前述當前多媒體內容的文本內容中提取出多個候選語句;確定預設多媒體內容庫中與前述當前多媒體內容具有相同的關鍵內容標識的多媒體內容為前述當前多媒體內容的關聯多媒體內容;確定預設多媒體內容庫中與前述當前多媒體內容具有不同的關鍵內容標識的多媒體內容為前述當前多媒體內容的非關聯多媒體內容;確定包含每個候選語句關聯多媒體內容的數量和包含每個候選語句的非關聯多媒體內容的數量;根據包含各候選語句的關聯多媒體內容的數量和非關聯多媒體內容的數量,從候選語句中確定出前述當前多媒體內容的關鍵語句。
  6. 如申請專利範圍第1項所記載的方法,其中,前述方法還包括:回應於確定前述語音資訊與前述引導資訊對應的範本資訊匹配成功,生成用於提示用戶成功跳過當前播放的多媒體內容的第一提示資訊。
  7. 如申請專利範圍第1到6項中任一項所記載的方法,其中,前述方法還包括:回應於確定前述語音資訊與前述引導資訊對應的範本資訊匹配失敗,生成用於提示用戶未成功跳過當前播放的多媒體內容的第二提示資訊。
  8. 一種多媒體內容播放裝置,包括:識別單元,用於響應於檢測到使用者根據呈現的當前多媒體內容的引導資訊發出的語音信號,獲取使用者觀看前述當前多媒體內容所使用的播放設備和使用者帳戶的安全認證資訊;對前述播放設備的安全認證資訊和前述使用者帳戶的安全認證資訊進行認證;回應於前述播放設備的安全認證資訊和前述使用者帳戶的安全認證資訊均通過認證,確定前述語音信號的合法性驗證通過;回應於前述語音信號的合法性驗證通過,對前述語音信號進行識別得到對應的語音資訊;匹配單元,用於將前述語音資訊與已獲取的前述引導資訊對應的範本資訊進行匹配;生成單元,用於回應於確定前述語音資訊與引導資訊對應的範本資訊匹配成功,生成執行跳過播放當前多媒體內容的操作的命令。
  9. 如申請專利範圍第8項所記載的裝置,其中,前述裝置還包括:獲取單元,用於獲取當前多媒體內容的播放配置資訊,前述播放配置資訊包括前述當前多媒體內容的引導資訊、前述引導資訊的呈現方式資訊以及與前述引導資訊對應的範本資訊。
  10. 如申請專利範圍第8項所記載的裝置,其中,前述引導資訊用於引導使用者發出跳過播放前述當前多媒體內容的語音指令,前述範本資訊包括範本指令;前述識別單元進一步用於按照如下方式對前述語音信號進行識別得到對應的語音資訊:將前述語音信號轉換為對應的使用者指令文本;前述匹配單元進一步用於按照如下方式將前述語音資訊與已獲取的前述引導資訊對應的範本資訊進行匹配:將前述使用者指令文本與已獲取的前述引導資訊對應的範本指令進行語義匹配。
  11. 如申請專利範圍第8項所記載的裝置,其中,前述引導資訊和前述引導資訊對應的範本資訊包括按照如下方式確定的引導資訊和範本資訊:基於預設多媒體內容庫對前述當前多媒體內容進行解析,提取前述多媒體內容所包含的關鍵語句;將前述關鍵語句確定為前述範本資訊;獲取為前述關鍵語句配置的對應的引導資訊。
  12. 如申請專利範圍第11項所記載的裝置,其中,前述預設多媒體內容庫包括具有關鍵內容標識的多條多媒體內容;作為前述範本資訊的關鍵語句是按照如下方式提取的:從前述當前多媒體內容的文本內容中提取出多個候選語句;確定預設多媒體內容庫中與前述當前多媒體內容具有相同的關鍵內容標識的多媒體內容為前述當前多媒體內容的關聯多媒體內容;確定預設多媒體內容庫中與前述當前多媒體內容具有不同的關鍵內容標識的多媒體內容為前述當前多媒體內容的非關聯多媒體內容;確定包含每個候選語句關聯多媒體內容的數量和包含每個候選語句的非關聯多媒體內容的數量;根據包含各候選語句的關聯多媒體內容的數量和非關聯多媒體內容的數量,從候選語句中確定出前述當前多媒體內容的關鍵語句。
  13. 如申請專利範圍第8項所記載的裝置,其中,前述裝置還包括:第一提示單元,用於回應於確定前述語音資訊與前述引導資訊對應的範本資訊匹配成功,生成用於提示用戶成功跳過當前播放的多媒體內容的第一提示資訊。
  14. 如申請專利範圍第8到13項中任一項所記載的裝置,其中,前述裝置還包括:第二提示單元,用於回應於確定前述語音資訊與前述引導資訊對應的範本資訊匹配失敗,生成用於提示用戶未成功跳過當前播放的多媒體內容的第二提示資訊。
  15. 一種電子設備,包括:一個或多個處理器;儲存裝置,用於儲存一個或多個程式,當前述一個或多個程式被前述一個或多個處理器執行,使得前述一個或多個處理器實現如申請專利範圍第1-7項中任一項記載的方法。
  16. 一種電腦可讀取媒體,其上儲存有電腦程式,其中,前述程式被處理器執行時實現如申請專利範圍第1-7項中任一項記載的方法。
TW107116116A 2018-03-20 2018-05-11 多媒體內容播放方法和裝置 TWI667916B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
??201810231476.4 2018-03-20
CN201810231476.4A CN108347646B (zh) 2018-03-20 2018-03-20 多媒体内容播放方法和装置

Publications (2)

Publication Number Publication Date
TWI667916B true TWI667916B (zh) 2019-08-01
TW201941618A TW201941618A (zh) 2019-10-16

Family

ID=62167237

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107116116A TWI667916B (zh) 2018-03-20 2018-05-11 多媒體內容播放方法和裝置

Country Status (6)

Country Link
US (1) US10643612B2 (zh)
EP (1) EP3543998B1 (zh)
JP (1) JP6634470B2 (zh)
KR (1) KR102023842B1 (zh)
CN (1) CN108347646B (zh)
TW (1) TWI667916B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108347646B (zh) * 2018-03-20 2019-07-02 百度在线网络技术(北京)有限公司 多媒体内容播放方法和装置
CN108933730A (zh) * 2018-06-29 2018-12-04 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN108924604A (zh) * 2018-08-22 2018-11-30 百度在线网络技术(北京)有限公司 用于播放视频的方法和装置
CN109764889A (zh) * 2018-12-06 2019-05-17 深圳前海达闼云端智能科技有限公司 导盲方法和装置,存储介质和电子设备
CN109992248B (zh) * 2019-02-25 2022-07-29 阿波罗智联(北京)科技有限公司 语音应用的实现方法、装置、设备及计算机可读存储介质
CN109979451A (zh) * 2019-03-20 2019-07-05 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
EP3832407B1 (fr) * 2019-12-06 2024-03-27 Tissot S.A. Procédé de connexion sécurisée d'une montre à un serveur distant
CN110992960A (zh) * 2019-12-18 2020-04-10 Oppo广东移动通信有限公司 控制方法、装置、电子设备和存储介质
CN113157236A (zh) * 2020-01-22 2021-07-23 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN111581403B (zh) * 2020-04-01 2023-05-23 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111432030B (zh) * 2020-04-17 2023-11-28 支付宝(杭州)信息技术有限公司 一种信息发布方法、装置、设备及介质
CN111552794B (zh) * 2020-05-13 2023-09-19 海信电子科技(武汉)有限公司 提示语生成方法、装置、设备和存储介质
CN112687289A (zh) * 2020-11-27 2021-04-20 雄狮汽车科技(南京)有限公司 音频广告的屏蔽方法和电子设备
CN113722515B (zh) * 2021-08-24 2023-08-18 北京奇艺世纪科技有限公司 共享信息处理方法、装置、系统及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101360234A (zh) * 2008-09-26 2009-02-04 北京新岸线网络技术有限公司 多媒体信息的播放方法和播放系统、终端设备、服务器
CN103945265A (zh) * 2014-04-11 2014-07-23 飞狐信息技术(天津)有限公司 一种广告处理方法及终端
CN107071542A (zh) * 2017-04-18 2017-08-18 百度在线网络技术(北京)有限公司 视频片段播放方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180904B1 (en) * 2001-04-26 2012-05-15 Nokia Corporation Data routing and management with routing path selectivity
JP2004120324A (ja) * 2002-09-26 2004-04-15 Toshiba Corp コンテンツ再生装置、コンテンツ再生方法及びコンテンツ配信方法
US9400875B1 (en) * 2005-02-11 2016-07-26 Nokia Corporation Content routing with rights management
JP4866153B2 (ja) * 2006-06-01 2012-02-01 日本電信電話株式会社 対話型質問方法、対話型質問システム、対話型質問プログラム及びそのプログラムを記録した記録媒体
US20080287100A1 (en) * 2007-05-18 2008-11-20 Aol Llc Mobile account access through a data processing system
US9876848B1 (en) * 2014-02-21 2018-01-23 Twitter, Inc. Television key phrase detection
US20160063533A1 (en) * 2014-08-31 2016-03-03 Kobi Shmueli Method of delivering an advertising message
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
CN107659847B (zh) 2016-09-22 2019-10-15 腾讯科技(北京)有限公司 语音互动方法和装置
CN106850539A (zh) * 2016-12-07 2017-06-13 广东小天才科技有限公司 一种验证信息获取方法和装置
CN108347646B (zh) * 2018-03-20 2019-07-02 百度在线网络技术(北京)有限公司 多媒体内容播放方法和装置
US11605242B2 (en) * 2018-06-07 2023-03-14 Motorola Mobility Llc Methods and devices for identifying multiple persons within an environment of an electronic device
US11016720B2 (en) * 2018-06-15 2021-05-25 Bose Corporation Audio system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101360234A (zh) * 2008-09-26 2009-02-04 北京新岸线网络技术有限公司 多媒体信息的播放方法和播放系统、终端设备、服务器
CN103945265A (zh) * 2014-04-11 2014-07-23 飞狐信息技术(天津)有限公司 一种广告处理方法及终端
CN107071542A (zh) * 2017-04-18 2017-08-18 百度在线网络技术(北京)有限公司 视频片段播放方法及装置

Also Published As

Publication number Publication date
US10643612B2 (en) 2020-05-05
CN108347646B (zh) 2019-07-02
US20190295543A1 (en) 2019-09-26
JP6634470B2 (ja) 2020-01-22
CN108347646A (zh) 2018-07-31
EP3543998A1 (en) 2019-09-25
KR102023842B1 (ko) 2019-09-20
JP2019165422A (ja) 2019-09-26
TW201941618A (zh) 2019-10-16
EP3543998B1 (en) 2022-05-04

Similar Documents

Publication Publication Date Title
TWI667916B (zh) 多媒體內容播放方法和裝置
CN107481720B (zh) 一种显式声纹识别方法及装置
CN108012173B (zh) 一种内容识别方法、装置、设备和计算机存储介质
US20190377956A1 (en) Method and apparatus for processing video
US11238854B2 (en) Facilitating creation and playback of user-recorded audio
WO2021175019A1 (zh) 音视频录制引导方法、装置、计算机设备及存储介质
JP2021524686A (ja) 埋め込まれた情報カードコンテンツを認識および解釈するための機械学習
JP6867441B2 (ja) 音声要求を処理するための方法および装置
JP2019091417A (ja) 音声サービス提供方法および装置
US9390245B2 (en) Using the ability to speak as a human interactive proof
US11127399B2 (en) Method and apparatus for pushing information
WO2022105861A1 (zh) 用于识别语音的方法、装置、电子设备和介质
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
CN112399258B (zh) 直播回放视频生成播放方法、装置、存储介质及电子设备
CN109582825B (zh) 用于生成信息的方法和装置
CN112153397B (zh) 视频处理方法、装置、服务器及存储介质
US11750898B2 (en) Method for generating target video, apparatus, server, and medium
KR20170003366A (ko) 성문 기반 통신 방법, 장치, 및 시스템
CN112163084B (zh) 问题反馈方法、装置、介质以及电子设备
WO2021170094A1 (zh) 用于信息交互的方法和装置
CN113923479A (zh) 音视频剪辑方法和装置
CN115312032A (zh) 语音识别训练集的生成方法及装置
CN111785280A (zh) 身份认证方法和装置、存储介质和电子设备
CN113808615B (zh) 音频类别定位方法、装置、电子设备和存储介质
US20240126851A1 (en) Authentication system and method