TWI753035B - 視訊資料的推薦方法、裝置和伺服器 - Google Patents

視訊資料的推薦方法、裝置和伺服器 Download PDF

Info

Publication number
TWI753035B
TWI753035B TW106136680A TW106136680A TWI753035B TW I753035 B TWI753035 B TW I753035B TW 106136680 A TW106136680 A TW 106136680A TW 106136680 A TW106136680 A TW 106136680A TW I753035 B TWI753035 B TW I753035B
Authority
TW
Taiwan
Prior art keywords
data
video
semantic
candidate
target
Prior art date
Application number
TW106136680A
Other languages
English (en)
Other versions
TW201834462A (zh
Inventor
張亞楠
葉舟
王瑜
楊洋
蘇飛
Original Assignee
香港商阿里巴巴集團服務有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商阿里巴巴集團服務有限公司 filed Critical 香港商阿里巴巴集團服務有限公司
Publication of TW201834462A publication Critical patent/TW201834462A/zh
Application granted granted Critical
Publication of TWI753035B publication Critical patent/TWI753035B/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2668Creating a channel for a dedicated end-user group, e.g. insertion of targeted commercials based on end-user profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明實施例提供了一種視訊資料的推薦方法和裝置,所述方法包括:獲取待處理資料,所述待處理資料包括文本資料和視訊資料;依據所述文本資料產生語義映射關係圖;依據所述視訊資料產生候選視訊片段資料;依據所述語義映射關係圖和所述候選視訊片段資料得到目標視訊資料;向用戶推薦所述目標視訊資料。本發明實施例可以根據語義映射關係圖從巨量的視訊資料中篩選出個性化的目標視訊資料,且全程可以無需人工干預,能夠極大提升用戶的視訊內容流覽體驗,提升購買轉換率。

Description

視訊資料的推薦方法、裝置和伺服器
本發明涉及資料處理技術領域,特別是涉及一種視訊資料的推薦方法,一種視訊資料的推薦裝置和一種伺服器。
基於視訊資料的導購及行銷、社區化運營越來越成為電子商務網站運營的著力點,該種類行銷方式具有很強的親和力,便於用戶更進一步地瞭解目標商品的特性特點,並且有很好的交互性和親切點,所以,相對傳統運營方法,能夠很好地提升用戶流覽點擊轉換率和購買轉換率。   然而,在運營實踐中,巨量導購視訊資料的高效管理和有效組織、如何抽取用戶核心興趣點進而提升用戶點擊欲望,卻成為運營的痛點所在。現有的方法是運營手動去浩如煙海的導購/場景視訊內容中截取一些可能會感興趣的點,然後通過人工合成的方法來給出短視訊(video),進而展現給終端消費用戶。在此過程中,浪費了大量寶貴的運營資源,並且,合成的短視訊無法做到千人千面,即所有的終端用戶看到的都是同樣的短視訊(沒有考慮終端用戶的年齡,消費層次,個人興趣點及偏好資訊等)。   也即是說,現有技術均無法解決自動化地產生相應的視訊導購小視訊,更多地需要大量運營人員來進行合成,人工極為耗費,而且,對巨量視訊資料的利用率不高,往往只局限於自己熟悉的一些視訊護具中,但是在電商巨量資料的要求下,這些視訊人工合成也不能兼顧個性化的效果,更不能兼顧商品推廣和提高GMV(Gross Merchandise Volume,成交總額)的要求。
鑒於上述問題,提出了本發明實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種視訊資料的推薦方法,一種視訊資料的推薦裝置和一種伺服器。   為了解決上述問題,本發明公開了一種視訊資料的推薦方法,包括:   獲取待處理資料,所述待處理資料包括文本資料和視訊資料;   依據所述文本資料產生語義映射關係圖;   依據所述視訊資料產生候選視訊片段資料;   依據所述語義映射關係圖和所述候選視訊片段資料得到目標視訊資料;   向用戶推薦所述目標視訊資料。   較佳地,所述獲取待處理資料的步驟包括:   獲取原始資料,所述原始資料包括語音資料;   將所述語音資料轉換為文本資料。   較佳地,所述依據所述文本資料產生語義映射關係圖的步驟包括:   從所述文本資料中提取語義實體;   從所述文本資料中提取所述語義實體之間的關聯關係;   將所述語義實體和所述語義實體之間的關聯關係儲存存為語義映射關係圖。   較佳地,所述從所述文本資料中提取出語義實體的步驟包括:   對所述文本資料中的預設特徵文本進行過濾處理;   從過濾處理後的文本資料作中提取出語義實體。   較佳地,所述依據所述視訊資料產生候選視訊片段資料的步驟包括:   將所述視訊資料劃分為視訊幀;所述視訊幀具有臺詞文本資料;   從所述臺詞文本資料中提取出語義標籤;   將所述語義標籤添加到對應的視訊幀;   將語義標籤相同的視訊幀作為候選視訊幀集合;   基於所述候選視訊幀集合產生候選視訊片段資料。   較佳地,所述從所述臺詞文本資料中提取出語義標籤的步驟包括:   按照預置文檔主題產生模型LDA從所述臺詞文本資料中提取出候選語義標籤;   計算所述候選語義標籤的詞頻逆向檔頻率值;   將排序在前M位的候選語義標籤作為語義標籤,所述M為正整數。   較佳地,所述視訊幀還具有視圖文本資料,所述將所述語義標籤相同的視訊幀作為候選視訊幀集合的步驟,還包括:   採用所述視圖文本資料將所述語義標籤歸類為新的語義標籤;   將所述新的語義標籤作為語義標籤添加到對應的視訊幀;   將新的語義標籤相同的視訊幀作為候選視訊幀集合。   較佳地,所述依據所述語義映射關係圖和所述候選視訊片段資料得到目標視訊資料的步驟包括:   確定當前的推廣意圖資料;所述推廣意圖資料具有意圖關鍵字;   從所述語義映射關係圖中查找到與所述意圖關鍵字對應的語義實體;   採用所述語義實體確定對應的語義標籤;   基於所述語義標籤從候選視訊片段資料中篩選出對應的目標候選視訊片段資料;   將所述目標候選視訊片段資料合成為目標視訊資料。   較佳地,所述將所述目標候選視訊片段資料合成為目標視訊資料的步驟,還包括:   按照預設模型對於目標候選視訊片段資料進行排序;   基於排序後的目標候選視訊片段資料合成目標視訊資料。   較佳地,在所述將所述目標候選視訊片段資料合成為目標視訊資料的步驟之後,還包括:   針對所述目標視訊資料進行平滑去噪處理,所述平滑去噪處理包括添加預設暖場視訊幀和/或捨棄指定視訊幀。   本發明實施例還公開了一種視訊資料的識別方法,包括:   獲取待處理的視訊資料,所述待處理資料包括文本資料和視訊資料;   將所述待處理的視訊資料發送至伺服器,所述伺服器用於分別對所述待處理的視訊資料進行識別,以獲得識別結果,所述識別結果包括目標視訊資料;   接收所述伺服器回傳的所述目標視訊資料;   展現所述目標視訊資料。   較佳地,所述接收所述伺服器回傳的所述目標視訊資料的步驟包括:   發送推廣請求至伺服器;   接收伺服器針對所述推廣請求從候選視訊片段資料篩選的目標視訊資料。   本發明實施例還公開了一種視訊資料的處理方法,包括:   接收到交互介面提交的處理請求;   依據所述處理請求獲取候選視訊片段資料;   將所述候選視訊片段資料發送至所述交互介面;   接收所述交互介面提交的推廣請求;   依據所述推廣請求從所述候選視訊片段資料獲取目標視訊資料;   將所述目標視訊資料發送至所述交互介面。   較佳地,所述依據所述處理請求獲取候選視訊片段資料的步驟包括:   獲取待處理資料,所述待處理資料包括文本資料和視訊資料;   依據所述文本資料產生語義映射關係圖;   依據所述視訊資料產生候選視訊片段資料。   較佳地,所述依據所述推廣請求從所述候選視訊片段資料獲取目標視訊資料的步驟包括:   從所述推廣請求中提取出意圖關鍵字;   從所述語義映射關係圖中查找到與所述意圖關鍵字對應的語義實體;   採用所述語義實體確定對應的語義標籤;   基於所述語義標籤從候選視訊片段資料中篩選出對應的目標候選視訊片段資料;   將所述目標候選視訊片段資料合成為目標視訊資料。   本發明實施例還公開了一種視訊資料的推薦裝置,包括:   待處理資料獲取模組,用於獲取待處理資料,所述待處理資料包括文本資料和視訊資料;   語義映射關係圖產生模組,用於依據所述文本資料產生語義映射關係圖;   候選視訊片段資料產生模組,用於依據所述視訊資料產生候選視訊片段資料;   目標視訊資料獲得模組,用於依據所述語義映射關係圖和所述候選視訊片段資料得到目標視訊資料;   目標視訊資料推薦模組,用於向用戶推薦所述目標視訊資料。   本發明實施例還公開了一種視訊資料的識別裝置,包括:   獲取模組,用於獲取待處理的視訊資料,所述待處理資料包括文本資料和視訊資料;   識別模組,用於將所述待處理的視訊資料發送至伺服器,所述伺服器用於分別對所述待處理的視訊資料進行識別,以獲得識別結果,所述識別結果包括目標視訊資料;   接收模組,用於接收所述伺服器回傳的所述目標視訊資料;   展現模組,用於展現所述目標視訊資料。   本發明實施例還公開了一種伺服器,包括:   處理請求接收模組,用於接收到交互介面提交的處理請求;   候選視訊獲取模組,用於依據所述處理請求獲取候選視訊片段資料;   候選視訊發送模組,用於將所述候選視訊片段資料發送至所述交互介面;   推廣請求接收模組,用於接收所述交互介面提交的推廣請求;   目標視訊獲取模組,用於依據所述推廣請求從所述候選視訊片段資料獲取目標視訊資料;   目標視訊發送模組,用於將所述目標視訊資料發送至所述交互介面。   本發明實施例包括以下優點:   本發明實施例,獲取包括文本資料和視訊資料的待處理資料,依據文本資料產生語義映射關係圖,以及依據視訊資料產生候選視訊片段資料,最後根據語義映射關係圖和候選視訊片段資料得到目標視訊資料來推薦給用戶,本發明實施例可以根據語義映射關係圖從巨量的視訊資料中篩選出個性化的目標視訊資料,且全程可以無需人工干預,能夠極大提升用戶的視訊內容流覽體驗,提升購買轉換率。
為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合圖式和具體實施方式對本發明作進一步詳細的說明。   參照圖1,示出了本發明的一種視訊資料的推薦方法實施例的步驟流程圖,具體可以包括如下步驟:   步驟101,獲取待處理資料,所述待處理資料包括文本資料和視訊資料;   在本發明實施例中,待處理資料可以包括有文本資料和視訊資料,其中,文本資料可以包括導購文案文本或者其他腳本,視訊資料可以包括巨量的導購視訊資料。   在本發明的一種較佳實施例中,所述步驟101可以包括如下子步驟:   子步驟S11,獲取原始資料,所述原始資料可以包括語音資料;   子步驟S12,將所述語音資料轉換為文本資料。   在實際中,原始資料中可以包括語音資料。當原始資料中存在語音資料時,可以先將語音資料轉成文本資料,以便於後續的處理。   步驟102,依據所述文本資料產生語義映射關係圖;   在本發明實施例中,可以根據已有的導購文案文本或者推廣意圖等文本來產生語義映射關係圖,語義映射關係圖可以記錄語義實體之間的關聯關係。   在本發明的一種較佳實施例中,所述步驟102可以包括如下子步驟:   子步驟S21,從所述文本資料中提取語義實體;   子步驟S22,從所述文本資料中提取所述語義實體之間的關聯關係;   子步驟S23,將所述語義實體和所述語義實體之間的關聯關係儲存存為語義映射關係圖。   在本發明實施例中,可以抽取文本資料中的語義實體(也可以稱為語言實體),並分析語義實體之間的關聯關係,將關聯關係抽取,作為語義映射關係圖的邊。   關於從文本資料中抽取語義實體,以及語義實體之間關聯關係可以有多種實現方法。從方法論上講,主要分為兩類,基於規則的方法、基於統計模型的方法。   基於規則的方法,是從大量的文本資料中歸納總結一些關鍵字(例如表達、屬於、是、依賴於等等),對待抽取文本資料,按照既定的一些關鍵字抽取。   基於統計模型的方法,是從大量的標注文本中訓練機器學習模型,然後對待抽取樣本進行抽取語義實體及語義實體之間的關聯關係。在實施本發明實施例時,可以採用基於統計模型的方法來抽取語義實體,以及語言實體之間的關聯關係。   當然,本發明實施例也可以選用除基於規則的方法、基於統計模型的方法等其他實現方式來抽取語義實體,本發明實施例對此不需要加以限制。   在本發明的一種具體示例中,謂詞可以作為語義實體之間關聯關係的一種,但是由於謂詞所表達的關聯關係比較靈活和多變,因此可以根據語義實體所處的上下文環境對謂詞進行準確識別並標注謂詞詞義,即進行謂詞消除歧義的處理,提高本發明的處理準確度。   當完成對於語義實體和語義實體之間關聯關係的抽取後,本發明實施例可以將涉及到的語義實體視作點,並將語義實體的關聯關係視為邊,來構建語義映射關係圖。如果是多關係查詢,那麼語義映射關係圖將會包含多個點和多條邊。當然,也可以採用除圖表之外的其他方式來記錄語義實體以及語義實體之間的關聯關係,本發明均不作限制。   在本發明的一種較佳實施例中,所述子步驟S21可以包括如下子步驟:   子步驟S211,對所述文本資料中的預設特徵文本進行過濾處理;   子步驟S212,從過濾處理後的文本資料作中提取出語義實體。   對於文本資料,包括由語音資料轉換所得的語音資料,可以在抽取語義實體之前,事先做一些必要的清洗,去掉預設特徵文本。具體來說,可以對文本資料中語氣詞,停用詞,助詞等等預設特徵文本進行過濾處理,從而得到比較規範化的文本資料,隨後再進行後續的提取語義實體的處理。   步驟103,依據所述視訊資料產生候選視訊片段資料;   在本發明實施例中,可以根據巨量的視訊導購資料的視訊幀來產生多個候選視訊片段資料,其中,該候選視訊片段資料具有語義標籤。在本發明的一種較佳實施例中,所述步驟103可以包括如下子步驟:   子步驟S31,將所述視訊資料劃分為視訊幀;所述視訊幀可以具有臺詞文本資料;   子步驟S32,從所述臺詞文本資料中提取出語義標籤;   子步驟S33,將所述語義標籤添加到對應的視訊幀;   子步驟S34,將語義標籤相同的視訊幀作為候選視訊幀集合;   子步驟S35,基於所述候選視訊幀集合產生候選視訊片段資料。   本發明實施例中,可以將視訊資料劃分成視訊幀,然後對於視訊幀進行語義分析與建模,包括分析視訊幀的臺詞文本資料,視訊幀的視圖文本資料抽取,視訊幀分割與物體抽取等等。   其中,臺詞文本資料指的是視訊資料中與視訊幀對應的配音臺詞文本資料。視圖文本資料,是對視訊幀進行圖片分析之後,抽取出來的圖片含義,根據圖片含義產生的文本資料。   對於視訊幀的臺詞文本資料,可以根據臺詞文本資料的場景及停頓,在臺詞文本資料單元內進行視訊幀的聚類,視訊幀物體的抽取,將視訊幀最小聚類結果,打上語義標籤。語義標籤是一組視訊幀聚類的場景總結表述,例如,可以包括開車,划船,跑步,吃大餐,甚至也可以包括做飯,拖地板,洗衣服等場景。   一般而言,首先根據臺詞文本資料的語義描述內容及語義停頓詞來切分臺詞並劃分場景,比如,“我今天開車去森林公園玩了,在森林公園玩了划船,然後繞著湖面跑步,最後在某某飯店吃了頓大餐。”在這個描述中,可以將臺詞文本資料對應的視訊幀的聚類結果劃分為四個語義標籤,分別為:開車、划船、跑步、吃大餐。然後,根據語義標籤對應的視訊幀,進行視訊幀的聚類,即語義標籤相同的視訊幀可以作為一類候選視訊幀集合。在上述場景中,當把視訊幀標記為四個語義標籤對應的場景後,對每個語義標籤所涵蓋的一系列視訊幀,進行視訊幀物體的抽取分割。   比如,在划船場景中,抽取一系列視訊幀的物體特徵資料,比如可以抽取船的形狀,是否帶蓬,是否帶槳,背景是湖面還是河道,這些資料有助於更好地理解圖片的含義,以驗證聚類結果的準確性和完整性。   在本發明的一種較佳實施例中,所述子步驟S32可以包括如下子步驟:   子步驟S321,按照預置文檔主題產生模型LDA從所述臺詞文本資料中提取出候選語義標籤;   子步驟S322,計算所述候選語義標籤的詞頻逆向檔頻率值;   子步驟S323,將排序在前M位的候選語義標籤作為語義標籤,所述M為正整數。   對視訊幀的臺詞文本資料進行LDA(Latent Dirichlet Allocation,文檔主題產生模型)分析,抽取語義實體。臺詞文本資料構成了大量的原始文本語料,然後進行LDA建模分詞,輸出候選的語義標籤集合,然後,計算這些候選的語義標籤的TF-IDF(term frequency-inverse document frequency,詞頻-逆向檔頻率)值,按照TF-IDF值大小進行排列,輸出值最大的一些精選的語義標籤。比如,可以輸出排序在前M位的候選語義標籤作為最終的語義標籤。   在本發明的一種較佳實施例中,所述視訊幀可以具有視圖文本資料,所述子步驟S34還可以包括如下子步驟:   步驟S341,採用所述視圖文本資料將所述語義標籤歸類為新的語義標籤;   步驟S342,將所述新的語義標籤作為語義標籤添加到對應的視訊幀;   步驟S343,將新的語義標籤相同的視訊幀作為候選視訊幀集合。   在本發明的一種較佳應用中,可以根據視訊幀的視圖文本資料和圖像物體識別,對已有語義標籤的視訊幀進行重新層次聚類,按照語義最大化原則將視訊幀的語義標籤重新歸併。   具體地,通過視訊幀的視圖文本資料和圖像物體識別,識別出視訊幀中的物體及其形態特徵,背景物體內容及其形態特徵,例如在划船和跑步場景中,其實都是在森林公園中發生的,並且根據划船跑步的視訊幀的內容分析得知,划船和跑步是由一系列連貫的視訊幀組成的,所以,按照語義最大化原則進行重新層次聚類,划船和跑步的語義標籤重新歸併產生了遊玩森林公園這個新的語義標籤。遊玩森林公園這個新的語義標籤涵蓋了在森林公園連貫的兩個活動場景,划船和跑步,並且,這兩個場景是連貫並且一氣呵成的。   在具體實現中,有些相鄰的視訊幀可能分別屬於不同語義標籤,然而,如果基於語義標籤將視訊幀合成為候選視訊片段資料,那麼可能候選視訊片段資料不夠平滑,因此在本發明實施例中,按照連續幀的最小單元切分片段,構建HMM(Hidden Markov Model,隱馬爾可夫模型),去尋找最佳的片段回路,然後用最佳的片段回路去對劃分好的視訊幀聚類結果進行平滑及去噪處理。   最佳的片段回路指的是視訊幀與視訊幀之間的最合理斷開點,比如,某一視訊幀屬於A語義標籤,而它的下一幀則屬於B語義標籤。這點需要根據視訊幀抽取的物體內容特徵、該幀的前一幀所抽取的物體內容特徵、語義標籤特徵來構建HMM模型,然後輸出該視訊幀分別屬於A標籤和B標籤的機率,最終取最大化機率來判定該幀屬於A語義標籤還是B語義標籤。   最後,根據最佳的片段回路的HMM模型結果,輸出兩個語義標籤的一些邊界幀的語義標籤歸屬。通過尋找最佳的片段回路,使得對邊界視訊幀重新做了一些精細化的平滑及去噪處理。   步驟104,依據所述語義映射關係圖和所述候選視訊片段資料得到目標視訊資料;   在本發明的一種較佳實施例中,所述步驟104可以包括如下子步驟:   子步驟S41,確定當前的推廣意圖資料;所述推廣意圖資料具有意圖關鍵字;   子步驟S42,從所述語義映射關係圖中查找到與所述意圖關鍵字對應的語義實體;   子步驟S43,採用所述語義實體確定對應的語義標籤;   子步驟S44,基於所述語義標籤從候選視訊片段資料中篩選出對應的目標候選視訊片段資料;   子步驟S45,將所述目標候選視訊片段資料合成為目標視訊資料。   本發明實施例可以基於前面的步驟所得到的語義映射關係圖和候選視訊片段資料技術方塊架下,來合成目標視訊資料。   具體地,通過分析文本形式的文案或者推廣意圖,從巨量導購視訊中抽取合適的視訊片段。首先,基於當前的推廣意圖資料分析出意圖關鍵字,然後在基於意圖關鍵字從語義映射關係圖中查找到對應的語義實體,然後再基於該語義實體查找到對應的語義標籤,最後基於該語義標籤查找到目標候選視訊片段資料,來合成所需的目標視訊資料。   在本發明的一種較佳實施例中,所述子步驟S45還可以包括如下子步驟:   子步驟S451,按照預設模型對於目標候選視訊片段資料進行排序;   子步驟S452,基於排序後的目標候選視訊片段資料合成目標視訊資料。   為了更好地貼合用戶需求,本發明實施例還將基於預設模型對於目標候選視訊片段資料先進行排序,使得貼合用戶需求的視訊片段能夠更加靠前地展示給用戶。   首先,根據視訊幀的語義資訊來構建出一系列的語義標籤,比如,我開車去某某游泳館游泳,然後去旁邊的商業街買手機,可以分解為開車、游泳、逛商業街、買手機等四個語義標籤。   然後,根據語義標籤查詢到視訊庫中的具有語義標籤打標的候選視訊片段資料。然後,對候選視訊片段,按照預設的電商圈店圈品模型、用戶個性化模型進行排序,儘量選視訊幀中涵蓋了爆款商品的,儘量根據用戶個性化資訊,來選擇視訊。   最終,將一系列語義標籤篩選出來的視訊小片段進行合成,構成了合成的小視訊,即本發明的目標視訊資料。   在本發明的一種較佳實施例中,在所述將所述目標候選視訊片段資料合成為目標視訊資料的步驟之後,還可以包括如下子步驟:   針對所述目標視訊資料進行平滑去噪處理,所述平滑去噪處理包括添加預設暖場視訊幀和/或捨棄指定視訊幀。   將合成的視訊按照專家規則進行平滑去噪處理,得到最終的視訊發送小視訊,按照某類人群的特定profile進行個性化發送。   合成的視訊是由若干視訊片段拼接而成的。拼接的過程中,可能存在視訊銜接的問題,所以,需要依據一些專家規則做對應平滑過濾。具體可以包括:   1、視訊場景切換不要太快,比如,可以在場景切換過程中,加入一些暖場視訊。   2、視訊色調及風格變換中,要有一定的過渡。在此過程中,可以捨棄視訊銜接處較為突兀的視訊幀。   當然,上述對於視訊的處理規則僅僅是作為示例,在實施本發明實施例時,可以採用其他方式或規則對於視訊幀進行處理,使得視訊銜接更加柔和,本發明實施例對此不加以限制。   步驟105,向用戶推薦所述目標視訊資料。   本發明實施例當取得目標視訊資料後,就可以將該視訊資料發送給用戶。其中,向用戶推薦目標視訊資料可以是在用戶介面播放所述目標視訊資料,也可以是將所述目標視訊資料推送給用戶,本發明實施例對推薦目標視訊資料的具體方式不作限定。   本發明實施例,獲取包括文本資料和視訊資料的待處理資料,依據文本資料產生語義映射關係圖,以及依據視訊資料產生候選視訊片段資料,最後根據語義映射關係圖和候選視訊片段資料得到目標視訊資料來推薦給用戶,本發明實施例可以根據語義映射關係圖從巨量的視訊資料中篩選出個性化的目標視訊資料,且全程可以無需人工干預,能夠極大提升用戶的視訊內容流覽體驗,提升購買轉換率。   為了使本領域技術人員更好理解本發明實施例,以下採用具體的示例對於本發明實施例進行說明。參照圖2所示的本發明的一種視訊資料的推薦方法的結構示意圖,其具體可以分為如下幾個部分:   一、文本資料及語音資料預處理   語音/文本去噪預處理(輸入):將語音資料轉成文本資料,其中,文本資料需要做一些必要的清洗,例如去掉語氣詞,常用詞,助詞等等。   二、實體映射   抽出語言中的實體及其關係(輸入):抽取文本中的語言實體,分析實體之間的關係,將關係抽取,組成語義關係映射圖的邊。   三、謂詞消歧   謂詞識別與同義標注(輸入):是根據語義實體所處的上下文環境對謂詞進行準確識別並標注謂詞詞義。   四、構建語義關係映射圖   將語義實體與謂詞及其關係構建語義圖(輸入):將涉及到的實體視作點,將實體的關係視為邊,構建語義關係映射圖。如果是多關係查詢,語義關係映射圖會包含多個點和多條邊。   五、圖像理解技術及連續幀分析   分析視訊資料所代表的含義,對連續幀進行建模分析(輸入):將圖像進行序列分析,對分析的圖像進行幀建模處理,包括以下幾步:   (1)將視訊資料劃分成最小的視訊幀(A、B、C、D等等),然後對於視訊幀進行語義分析與建模,包括分析視訊幀的臺詞文本,視訊幀的視圖文本抽取,視訊幀分割與物體抽取。   對於視訊幀的臺詞文本資料,根據臺詞文本資料的場景及停頓,在臺詞文本單元內進行視訊幀的聚類,視訊幀物體的分割,將視訊幀最小聚類結果,打上語義標籤。   (2)根據視訊幀的視圖文本資料和圖像物體識別,對已有語義標籤的視訊幀進行重新層次聚類,按照語義最大化原則將視訊幀的語義標籤重新歸併。   (3)最後,按照連續幀的最小單元切分片段,構建HMM(隱瑪律科夫)模型,去尋找最佳的片段回路,然後用片段回路去對劃分好的視訊幀聚類結果進行平滑及去噪處理。   六、臺詞文本資料及視圖文本資料抽取與語義理解   對視訊幀的臺詞及視圖文本抽取進行語義圖建模(輸入):對視訊幀的臺詞進行語義實體建模,進行LDA分析,抽取語義實體關鍵字,另外,對視圖中的文本也進行分割抽取,包括以下幾步:   (1)對圖像的臺詞文本資料進行語義分析,然後按照已有的語料進行LDA建模,然後對圖像臺詞進行LDA抽取,按照語義關鍵字進行TF-IDF計算,提取出視訊幀的語義標籤。   (2)分析視訊幀的語義含義,進行視訊幀歸併。   七、視訊幀與實體的ID mapping技術   將語義標籤與視訊實體幀進行去噪,過濾處理(輸入):視訊幀聚類的結果,與視訊幀的語義標籤進一步地處理,去噪,按照規則進行校驗,使得視訊幀與語義標籤的對應比較平滑。   八、視訊合成與最佳化組合處理   運用電商圈店圈品模型,用戶個性化模型,用戶分層聚類模型等模型來合成視訊資料(輸入),主要有以下幾步:   (1)電商圈店圈品模型用來篩選視訊幀,比如需要一個女性服飾的鏡頭,按照女性服飾的圈品模型,篩選出爆款SKU或者,按照用戶個性化模型,來篩出用戶的潛在興趣點品類,主要是為千人千面服務   (2)用戶個性化模型,主要用來對視訊幀進行排序篩選,比如女性用戶的潛在興趣需要一些浪漫的鏡頭,而男性需要比較陽剛的鏡頭,這些都可以根據用戶profile來個性化合成   (3)用戶分層聚類模型,用來對用戶進行層次聚類,更高地將用戶劃分出較大的類別簇,方便對某個類別用戶做一些特定處理。   九、人群定投push系統   將合成的視訊按照專家規則進行平滑去噪處理,得到最終的視訊發送小視訊,按照某類人群的特定配置資料進行個性化發送。   綜上概括,本發明實現的具體執行順序可以是:   輸入:已有文本和語音(包括文案,腳本之類)   步驟1:文本和語音的預處理,實體映射/謂詞消岐/構建語義映射圖;   步驟2:巨量導購視訊分析與處理,進行圖像理解與連續幀分析建模;   步驟3:臺詞文本資料及視圖文本資料抽取與語義理解,LDA建模抽取關鍵語義詞作為打語義標籤;   步驟4:語義標籤與視訊幀進行關聯處理,然後按照層次聚類進行再處理;   步驟5:視訊幀與語義實體的ID Mapping技術;   步驟6:按照電商圈店圈品模型,用戶個性化興趣模型,用戶分層聚類模型等模型來合成小視訊,並按照規則進行去噪和平滑處理。   輸出:基於千人千面的人群個性化視訊,在個性化發送及push推送系統中進行個性化發送。   (1)基於上述可知,本發明實現了一種全新的視訊內容自動化,個性化產生及push發送系統,能夠實現如下情況:根據當前的文案和推廣意圖,通過分析文本形式的文案或者推廣意圖,從巨量導購視訊中抽取合適的視訊片段,然後將語義標籤與巨量幀片段進行打標進行關聯,在此過程中,運用個性化推薦和圖像視訊分析技術、爆款選品技術,千人千面地自動合成對應不同層次,不同品味的面向終端用戶的視訊導購視訊,進而提升用戶服務體驗,提高用戶轉換率,拉動GMV的提升。該系統能夠極大地提高運營效率,賦能直播運營,以及滿足用戶“個性化內容”心智,並在此基礎上,實現商業價值的最大化。   (2)基於(1),設計了一個語義分析及映射圖模型,將涉及到的語言實體視作點,將實體的關係視為邊,構建語義圖。如果是多關係查詢,語義關係映射圖會包含多個點和多條邊。最終在語義關係映射圖的指導下,合成小視訊。   (3)基於(1),設計了一個圖像理解和連續幀分析模型,將圖像進行序列分析,對分析的圖像進行幀建模處理,最終將連續視訊幀劃分為語義層面上獨立的個體視訊幀。   (4)基於(1),設計了一個視訊幀的臺詞文本資料及視圖文本資料抽取然後轉化為語義圖的步驟。   (5)基於(1),設計了視訊合成及最佳化處理模型,運用電商圈店圈品模型,用戶個性化模型,用戶分層聚類模型等模型來合成視訊語義幀,最後平滑去噪,輸入到發送系統中按人群類別進行輸出。   參照圖3,示出了本發明的一種視訊資料的識別方法實施例的步驟流程圖,具體可以包括如下步驟:   步驟201,獲取待處理的視訊資料,所述待處理資料包括文本資料和視訊資料;   步驟202,將所述待處理的視訊資料發送至伺服器,所述伺服器用於分別對所述待處理的視訊資料進行識別,以獲得識別結果,所述識別結果包括目標視訊資料;   在本發明實施例中,通過用戶端的交互介面,讓用戶輸入待處理資料,具體地,在交互介面可以包括一個或多個視訊輸入方塊,該輸入方塊可以按管道(例如國內管道和國外管道)或者按照視訊資料的類型(例如已拍好的廣告視訊或者公益視訊等等),待用戶完成輸入後,可以通過點擊交互介面上的提交按鈕,將輸入的視訊資料傳輸至伺服器。   步驟203,接收所述伺服器回傳的所述目標視訊資料;   伺服器接收到用戶端傳輸的視訊資料後,會對該視訊資料進行識別,得到識別結果,其中,識別過程可以得到候選視訊片段資料,進一步地,還可以根據候選視訊片段資料得到目標視訊資料。   在本發明的一種較佳實施例中,所述步驟203可以包括如下子步驟:   子步驟S51,發送推廣請求至伺服器;   子步驟S52,接收伺服器針對所述推廣請求從候選視訊片段資料篩選的目標視訊資料。   在實際中,根據用戶群體或者推廣時間等因素,需要策劃不同的不同的推廣文案,本發明實施例中,可以基於推廣文案產生推廣請求,並發送至伺服器,使得伺服器能夠從候選視訊片段資料中篩選出符合推廣文案的目標視訊資料。   步驟204,展現所述目標視訊資料。   伺服器得到目標視訊資料後可以將回饋給用戶端中,用戶端可以將目標視訊資料展現在交互介面。進一步地,用戶交互介面觀看到目標視訊資料後,可以點擊目標視訊資料,然後進行播放。   由於本實施例與上述視訊資料的推薦方法實施例類似,可以相互參閱,本發明實施例對此不再贅述。   參照圖4,示出了本發明的一種視訊資料的推薦方法實施例的步驟流程圖,具體可以包括如下步驟:   步驟301,接收到交互介面提交的處理請求;   步驟302,依據所述處理請求獲取候選視訊片段資料;   步驟303,將所述候選視訊片段資料發送至所述交互介面;   在本發明實施例中,伺服器接收到用戶端的交互介面提交的處理請求後,將依據該處理請求對於待處理的視訊資料進行處理得到候選視訊片段資料,此時的候選視訊片段資料是資料量較大的多個視訊資料,此時可以先將該候選視訊片段資料回饋至用戶端的交互介面,用戶從交互介面接收到伺服器回饋的候選視訊片段資料。   在本發明的一種較佳實施例中,所述步驟302可以包括如下子步驟:   子步驟S61,獲取待處理資料,所述待處理資料包括文本資料和視訊資料;   子步驟S62,依據所述文本資料產生語義映射關係圖;   子步驟S63,依據所述視訊資料產生候選視訊片段資料。   具體地,對於交互介面提交的待處理資料,分別根據待處理資料的文本資料產生語義映射關係圖,以及,根據待處理資料的視訊資料產生候選視訊片段資料。其中,語義映射關係圖中包括從文本資料抽取的語義實體,以及語義實體之間的關聯關係。   視訊資料具有臺詞文本資料,本發明實施例對於視訊資料進行劃分得到視訊幀,並從臺詞文本資料提取出語義標籤,添加到對應的視訊幀中。最後會對於語義標籤相同的視訊幀進行合併得到候選視訊片段資料。   從所述臺詞文本資料中提取出語義標籤   步驟304,接收所述交互介面提交的推廣請求;   步驟305,依據所述推廣請求從所述候選視訊片段資料獲取目標視訊資料;   在本發明的一種較佳實施例中,所述步驟305可以包括如下子步驟:   子步驟S71,從所述推廣請求中提取出意圖關鍵字;   子步驟S72,從所述語義映射關係圖中查找到與所述意圖關鍵字對應的語義實體;   子步驟S73,採用所述語義實體確定對應的語義標籤;   子步驟S74,基於所述語義標籤從候選視訊片段資料中篩選出對應的目標候選視訊片段資料;   子步驟S75,將所述目標候選視訊片段資料合成為目標視訊資料。   較佳地,本發明實施例還可以根據實際需求進一步從候選視訊片段資料中篩選出更加符合需求的視訊資料,具體地,可以根據當前的推廣意圖,在用戶端的交互介面輸入關鍵字,然後產生推廣請求發送至伺服器,伺服器將根據推廣請求中的意圖關鍵字,從語義映射關係圖中查找到與意圖關鍵字對應的語義實體,並基於語義實體確定對應的語義標籤,最後採用語義標籤從候選視訊片段資料中篩選出目標視訊資料。   步驟306,將所述目標視訊資料發送至所述交互介面。   當從候選視訊片段資料中篩選出目標視訊資料後,將目標視訊資料發送至用戶端的交互介面進行展示。 需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施例並不受所描述的動作順序的限制,因為依據本發明實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於較佳實施例,所涉及的動作並不一定是本發明實施例所必須的。   參照圖5,示出了本發明的一種視訊資料的推薦裝置實施例的結構方塊圖,具體可以包括如下模組:   待處理資料獲取模組401,用於獲取待處理資料,所述待處理資料包括文本資料和視訊資料;   語義映射關係圖產生模組402,用於依據所述文本資料產生語義映射關係圖;   候選視訊片段資料產生模組403,用於依據所述視訊資料產生候選視訊片段資料;   目標視訊資料獲得模組404,用於依據所述語義映射關係圖和所述候選視訊片段資料得到目標視訊資料;   目標視訊資料推薦模組405,用於向用戶推薦所述目標視訊資料。   在本發明實施例中,所述待處理資料獲取模組401可以包括:   原始資料獲取子模組,用於獲取原始資料,所述原始資料包括語音資料;   語音資料轉換子模組,用於將所述語音資料轉換為文本資料。   在本發明實施例中,所述語義映射關係圖產生模組402可以包括:   語義實體提取子模組,用於從所述文本資料中提取語義實體;   關聯關係確定子模組,用於從所述文本資料中提取所述語義實體之間的關聯詞;   資料儲存存子模組,用於將所述語義實體和所述語義實體之間的關聯關係儲存存為語義映射關係圖。   在本發明實施例中,所述語義實體提取子模組可以包括:   過濾處理單元,用於對所述文本資料中的預設特徵文本進行過濾處理;   語義實體提取單元,用於從過濾處理後的文本資料作中提取出語義實體。   在本發明實施例中,所述候選視訊片段資料產生模組403可以包括:   視訊幀劃分子模組,用於將所述視訊資料劃分為視訊幀;所述視訊幀具有臺詞文本資料;   語義標籤提取子模組,用於從所述臺詞文本資料中提取出語義標籤;   語義標籤添加子模組,用於將所述語義標籤添加到對應的視訊幀;   候選視訊幀集合產生子模組,用於將語義標籤相同的視訊幀作為候選視訊幀集合;   候選視訊片段資料產生子模組,用於基於所述候選視訊幀集合產生候選視訊片段資料。   在本發明實施例中,所述語義標籤提取子模組包括:   候選語義標籤提取單元,用於按照預置文檔主題產生模型LDA從所述臺詞文本資料中提取出候選語義標籤;   詞頻逆向檔頻率值計算單元,用於計算所述候選語義標籤的詞頻逆向檔頻率值;   語義標籤確定單元,用於將排序在前M位的候選語義標籤作為語義標籤,所述M為正整數。   在本發明實施例中,所述視訊幀還具有視圖文本資料,還包括:   新的語義標籤歸類子模組,用於採用所述視圖文本資料將所述語義標籤歸類為新的語義標籤;   語義標籤添加子模組,用於將所述新的語義標籤作為語義標籤添加到對應的視訊幀;   候選視訊幀集合產生子模組,用於將新的語義標籤相同的視訊幀作為候選視訊幀集合。   在本發明實施例中,所述目標視訊資料獲得模組包括:   推廣意圖資料確定子模組,用於確定當前的推廣意圖資料;所述推廣意圖資料具有意圖關鍵字;   語義實體查找子模組,用於從所述語義映射關係圖中查找到與所述意圖關鍵字對應的語義實體;   語義標籤確定子模組,用於採用所述語義實體確定對應的語義標籤;   目標候選視訊片段資料篩選子模組,用於基於所述語義標籤從候選視訊片段資料中篩選出對應的目標候選視訊片段資料;   目標視訊資料合成子模組,用於將所述目標候選視訊片段資料合成為目標視訊資料。   在本發明實施例中,所述目標視訊資料合成子模組可以包括:   視訊片段資料排序單元,用於按照預設模型對於目標候選視訊片段資料進行排序;   目標視訊資料合成單元,用於基於排序後的目標候選視訊片段資料合成目標視訊資料。   在本發明實施例中,所述目標視訊資料合成子模組可以包括:   平滑去噪處理單元,用於針對所述目標視訊資料進行平滑去噪處理,所述平滑去噪處理包括添加預設暖場視訊幀和/或捨棄指定視訊幀。   參照圖6,示出了本發明的一種視訊資料的識別裝置實施例的結構方塊圖,具體可以包括如下模組:   獲取模組501,用於獲取待處理的視訊資料,所述待處理資料包括文本資料和視訊資料;   識別模組502,用於將所述待處理的視訊資料發送至伺服器,所述伺服器用於分別對所述待處理的視訊資料進行識別,以獲得識別結果,所述識別結果包括目標視訊資料;   接收模組503,用於接收所述伺服器回傳的所述目標視訊資料;   展現模組504,用於展現所述目標視訊資料。   參照圖7,示出了本發明的一種伺服器結構方塊圖,具體可以包括如下模組:   處理請求接收模組601,用於接收到交互介面提交的處理請求;   候選視訊獲取模組602,用於依據所述處理請求獲取候選視訊片段資料;   候選視訊發送模組603,用於將所述候選視訊片段資料發送至所述交互介面;   推廣請求接收模組604,用於接收所述交互介面提交的推廣請求;   目標視訊獲取模組605,用於依據所述推廣請求從所述候選視訊片段資料獲取目標視訊資料;   目標視訊發送模組606,用於將所述目標視訊資料發送至所述交互介面。   對於裝置、伺服器實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。   本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。   本領域內的技術人員應明白,本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明實施例可採用在一個或多個其中包含有電腦可用程式碼的電腦可用儲存介質(包括但不限於磁碟記憶體、CD-ROM、光學記憶體等)上實施的電腦程式產品的形式。   在一個典型的配置中,所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。記憶體可能包括電腦可讀介質中的非永久性記憶體,隨機存取記憶體(RAM)和/或非揮發性記憶體等形式,如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀介質的示例。電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括,但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶,磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸介質,可用於儲存可以被計算設備訪問的資訊。按照本文中的界定,電腦可讀介質不包括非持續性的電腦可讀媒體(transitory media),如調變的資料信號和載波。   本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方塊圖來描述的。應理解可由電腦程式指令實現流程圖和/或方塊圖中的每一流程和/或方塊、以及流程圖和/或方塊圖中的流程和/或方塊的結合。可提供這些電腦程式指令到通用電腦、專用電腦、嵌入式處理機或其他可程式設計資料處理終端設備的處理器以產生一個機器,使得通過電腦或其他可程式設計資料處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的裝置。   這些電腦程式指令也可儲存在能引導電腦或其他可程式設計資料處理終端設備以特定方式工作的電腦可讀記憶體中,使得儲存在該電腦可讀記憶體中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能。   這些電腦程式指令也可裝載到電腦或其他可程式設計資料處理終端設備上,使得在電腦或其他可程式設計終端設備上執行一系列操作步驟以產生電腦實現的處理,從而在電腦或其他可程式設計終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方塊圖一個方塊或多個方塊中指定的功能的步驟。   儘管已描述了本發明實施例的較佳實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。   最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。   以上對本發明所提供的一種視訊資料的推薦方法和一種視訊資料的推薦裝置,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。
101-105‧‧‧步驟201-204‧‧‧步驟301-306‧‧‧步驟401‧‧‧待處理資料獲取模組402‧‧‧語義映射關係圖產生模組403‧‧‧候選視訊片段資料產生模組404‧‧‧目標視訊資料獲得模組405‧‧‧目標視訊資料推薦模組501‧‧‧獲取模組502‧‧‧識別模組503‧‧‧接收模組504‧‧‧展現模組601‧‧‧處理請求接收模組602‧‧‧候選視訊獲取模組603‧‧‧候選視訊發送模組604‧‧‧推廣請求接收模組605‧‧‧目標視訊獲取模組606‧‧‧目標視訊發送模組
圖1是本發明的一種視訊資料的推薦方法實施例的步驟流程圖;   圖2是本發明的一種視訊資料的推薦方法的結構示意圖;   圖3是本發明的一種視訊資料的識別方法的結構示意圖;   圖4是本發明的一種視訊資料的推薦方法實施例的步驟流程圖;   圖5是本發明的一種視訊資料的推薦裝置實施例的結構方塊圖;   圖6是本發明的一種視訊資料的識別裝置的結構方塊圖;   圖7是本發明的一種伺服器實施例的結構方塊圖。

Claims (13)

  1. 一種視訊資料的推薦方法,其特徵在於,包括:獲取待處理資料,該待處理資料包括文本資料和視訊資料;依據該文本資料產生語義映射關係圖;依據該視訊資料產生候選視訊片段資料;依據該語義映射關係圖和該候選視訊片段資料得到目標視訊資料,包括:確定當前的推廣意圖資料;該推廣意圖資料具有意圖關鍵字;從該語義映射關係圖中查找到與該意圖關鍵字對應的語義實體;採用該語義實體確定對應的語義標籤;基於該語義標籤從候選視訊片段資料中篩選出對應的目標候選視訊片段資料;將該目標候選視訊片段資料合成為目標視訊資料;向用戶推薦該目標視訊資料。
  2. 根據請求項1所述的方法,其中,該獲取待處理資料的步驟包括:獲取原始資料,該原始資料包括語音資料;將該語音資料轉換為文本資料。
  3. 根據請求項1所述的方法,其中,該依據該文本資料產生語義映射關係圖的步驟包括:從該文本資料中提取語義實體;從該文本資料中提取該語義實體之間的關聯關係;將該語義實體和該語義實體之間的關聯關係儲存為語義映射關係圖。
  4. 根據請求項3所述的方法,其中,該從該文本資料中提取出語義實體的步驟包括:對該文本資料中的預設特徵文本進行過濾處理;從過濾處理後的文本資料作中提取出語義實體。
  5. 根據請求項1所述的方法,其中,該依據該視訊資料產生候選視訊片段資料的步驟包括:將該視訊資料劃分為視訊幀;該視訊幀具有臺詞文本資料;從該臺詞文本資料中提取出語義標籤;將該語義標籤添加到對應的視訊幀;將語義標籤相同的視訊幀作為候選視訊幀集合;基於該候選視訊幀集合產生候選視訊片段資料。
  6. 根據請求項5所述的方法,其中,該從該臺詞文本資料中提取出語義標籤的步驟包括: 按照預置文檔主題產生模型LDA從該臺詞文本資料中提取出候選語義標籤;計算該候選語義標籤的詞頻逆向檔頻率值;將排序在前M位的候選語義標籤作為語義標籤,該M為正整數。
  7. 根據請求項5所述的方法,其中,該視訊幀還具有視圖文本資料,該將該語義標籤相同的視訊幀作為候選視訊幀集合的步驟,還包括:採用該視圖文本資料將該語義標籤歸類為新的語義標籤;將該新的語義標籤作為語義標籤添加到對應的視訊幀;將新的語義標籤相同的視訊幀作為候選視訊幀集合。
  8. 根據請求項1所述的方法,其中,該將該目標候選視訊片段資料合成為目標視訊資料的步驟,還包括:按照預設模型對於目標候選視訊片段資料進行排序;基於排序後的目標候選視訊片段資料合成目標視訊資料。
  9. 根據請求項1或8所述的方法,其中,在該將該目標候選視訊片段資料合成為目標視訊資料的步驟之後,還包括: 針對該目標視訊資料進行平滑去噪處理,該平滑去噪處理包括添加預設暖場視訊幀和/或捨棄指定視訊幀。
  10. 一種視訊資料的處理方法,其特徵在於,包括:接收到交互介面提交的處理請求;依據該處理請求獲取候選視訊片段資料;將該候選視訊片段資料發送至該交互介面;接收該交互介面提交的推廣請求;依據該推廣請求從該候選視訊片段資料獲取目標視訊資料,包括:從該推廣請求中提取出意圖關鍵字;從該語義映射關係圖中查找到與該意圖關鍵字對應的語義實體;採用該語義實體確定對應的語義標籤;基於該語義標籤從候選視訊片段資料中篩選出對應的目標候選視訊片段資料;將該目標候選視訊片段資料合成為目標視訊資料;將該目標視訊資料發送至該交互介面。
  11. 根據請求項10所述的方法,其中,該依據該處理請求獲取候選視訊片段資料的步驟包括:獲取待處理資料,該待處理資料包括文本資料和視訊資料; 依據該文本資料產生語義映射關係圖;依據該視訊資料產生候選視訊片段資料。
  12. 一種視訊資料的推薦裝置,其特徵在於,包括:待處理資料獲取模組,用於獲取待處理資料,該待處理資料包括文本資料和視訊資料;語義映射關係圖產生模組,用於依據該文本資料產生語義映射關係圖;候選視訊片段資料產生模組,用於依據該視訊資料產生候選視訊片段資料;目標視訊資料獲得模組,用於依據該語義映射關係圖和該候選視訊片段資料得到目標視訊資料,包括:確定當前的推廣意圖資料;該推廣意圖資料具有意圖關鍵字;從該語義映射關係圖中查找到與該意圖關鍵字對應的語義實體;採用該語義實體確定對應的語義標籤;基於該語義標籤從候選視訊片段資料中篩選出對應的目標候選視訊片段資料;將該目標候選視訊片段資料合成為目標視訊資料;目標視訊資料推薦模組,用於向用戶推薦該目標視訊資料。
  13. 一種伺服器,其特徵在於,包括:處理請求接收模組,用於接收到交互介面提交的處理請求;候選視訊獲取模組,用於依據該處理請求獲取候選視訊片段資料;候選視訊發送模組,用於將該候選視訊片段資料發送至該交互介面;推廣請求接收模組,用於接收該交互介面提交的推廣請求;目標視訊獲取模組,用於依據該推廣請求從該候選視訊片段資料獲取目標視訊資料,包括:從該推廣請求中提取出意圖關鍵字;從該語義映射關係圖中查找到與該意圖關鍵字對應的語義實體;採用該語義實體確定對應的語義標籤;基於該語義標籤從候選視訊片段資料中篩選出對應的目標候選視訊片段資料;將該目標候選視訊片段資料合成為目標視訊資料;目標視訊發送模組,用於將該目標視訊資料發送至該交互介面。
TW106136680A 2017-02-28 2017-10-25 視訊資料的推薦方法、裝置和伺服器 TWI753035B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
??201710119022.3 2017-02-28
CN201710119022.3A CN108509465B (zh) 2017-02-28 2017-02-28 一种视频数据的推荐方法、装置和服务器
CN201710119022.3 2017-02-28

Publications (2)

Publication Number Publication Date
TW201834462A TW201834462A (zh) 2018-09-16
TWI753035B true TWI753035B (zh) 2022-01-21

Family

ID=63247120

Family Applications (1)

Application Number Title Priority Date Filing Date
TW106136680A TWI753035B (zh) 2017-02-28 2017-10-25 視訊資料的推薦方法、裝置和伺服器

Country Status (4)

Country Link
US (1) US20180249193A1 (zh)
CN (1) CN108509465B (zh)
TW (1) TWI753035B (zh)
WO (1) WO2018160370A1 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019140621A1 (zh) * 2018-01-19 2019-07-25 深圳市大疆创新科技有限公司 视频处理方法及终端设备
CN110971917B (zh) * 2018-09-28 2021-10-22 广州虎牙信息科技有限公司 基于Lambda框架的直播数据处理方法、系统、服务器及装置
US11604818B2 (en) 2019-05-06 2023-03-14 Apple Inc. Behavioral curation of media assets
CN111915339A (zh) * 2019-05-09 2020-11-10 阿里巴巴集团控股有限公司 数据的处理方法、装置及设备
US11030257B2 (en) 2019-05-20 2021-06-08 Adobe Inc. Automatically generating theme-based folders by clustering media items in a semantic space
CN110147846A (zh) * 2019-05-23 2019-08-20 软通智慧科技有限公司 视频分割方法、装置、设备及存储介质
CN110222231B (zh) * 2019-06-11 2022-10-18 成都澳海川科技有限公司 一种视频片段的热度预测方法
CN110121118B (zh) * 2019-06-17 2021-08-06 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质
CN110489593B (zh) * 2019-08-20 2023-04-28 腾讯科技(深圳)有限公司 视频的话题处理方法、装置、电子设备及存储介质
CN110611840B (zh) * 2019-09-03 2021-11-09 北京奇艺世纪科技有限公司 一种视频生成方法、装置、电子设备及存储介质
CN110704681B (zh) 2019-09-26 2023-03-24 三星电子(中国)研发中心 一种生成视频的方法及系统
CN110879851A (zh) * 2019-10-15 2020-03-13 北京三快在线科技有限公司 视频动态封面生成方法、装置、电子设备及可读存储介质
CN110636325B (zh) * 2019-10-25 2023-03-24 网易(杭州)网络有限公司 在直播平台上分享推送信息的方法、装置及存储介质
CN110809186B (zh) * 2019-10-28 2022-11-01 维沃移动通信有限公司 一种视频处理方法及电子设备
CN110929098B (zh) * 2019-11-14 2023-04-07 腾讯科技(深圳)有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN113132753A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法及装置、视频封面生成方法及装置
CN113079420A (zh) * 2020-01-03 2021-07-06 北京三星通信技术研究有限公司 视频生成方法、装置、电子设备及计算机可读存储介质
CN111353422B (zh) * 2020-02-27 2023-08-22 维沃移动通信有限公司 信息提取方法、装置及电子设备
CN111831854A (zh) * 2020-06-03 2020-10-27 北京百度网讯科技有限公司 视频标签的生成方法、装置、电子设备和存储介质
CN111694986A (zh) * 2020-06-12 2020-09-22 北京奇艺世纪科技有限公司 一种视频推荐方法、装置、电子设备及存储介质
CN112015949B (zh) * 2020-08-26 2023-08-29 腾讯科技(上海)有限公司 视频生成方法和装置、存储介质及电子设备
CN112233661B (zh) * 2020-10-14 2024-04-05 广州欢网科技有限责任公司 基于语音识别的影视内容字幕生成方法、系统及设备
US11393203B2 (en) * 2020-12-14 2022-07-19 Snap Inc. Visual tag emerging pattern detection
US11682415B2 (en) * 2021-03-19 2023-06-20 International Business Machines Corporation Automatic video tagging
CN113901263B (zh) * 2021-09-30 2022-08-19 宿迁硅基智能科技有限公司 一种视频素材的标签生成方法及装置
CN114173188B (zh) * 2021-10-18 2023-06-02 深圳追一科技有限公司 视频生成方法、电子设备、存储介质和数字人服务器
CN113891133B (zh) * 2021-12-06 2022-04-22 阿里巴巴达摩院(杭州)科技有限公司 多媒体信息的播放方法、装置、设备及存储介质
CN114693353B (zh) * 2022-03-31 2023-01-24 深圳市崇晸实业有限公司 电子商务数据处理方法、电子商务系统及云平台
US11811626B1 (en) * 2022-06-06 2023-11-07 International Business Machines Corporation Ticket knowledge graph enhancement
CN115086783B (zh) * 2022-06-28 2023-10-27 北京奇艺世纪科技有限公司 一种视频生成方法、装置及电子设备
CN115119050B (zh) * 2022-06-30 2023-12-15 北京奇艺世纪科技有限公司 一种视频剪辑方法和装置、电子设备和存储介质
CN115379233B (zh) * 2022-08-16 2023-07-04 广东省信息网络有限公司 一种大数据视频信息分析方法和系统
CN115168650B (zh) * 2022-09-07 2023-06-02 杭州笔声智能科技有限公司 一种会议视频检索方法、装置及存储介质
CN115994536B (zh) * 2023-03-24 2023-07-14 浪潮电子信息产业股份有限公司 一种文本信息处理方法、系统、设备及计算机存储介质
CN117082293B (zh) * 2023-10-16 2023-12-19 成都华栖云科技有限公司 一种基于文字创意的视频自动生成方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090256972A1 (en) * 2008-04-11 2009-10-15 Arun Ramaswamy Methods and apparatus to generate and use content-aware watermarks
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
US20120011109A1 (en) * 2010-07-09 2012-01-12 Comcast Cable Communications, Llc Automatic Segmentation of Video
US20120123978A1 (en) * 2010-11-11 2012-05-17 Google Inc. Learning Tags for Video Annotation Using Latent Subtags
US20160092561A1 (en) * 2014-09-30 2016-03-31 Apple Inc. Video analysis techniques for improved editing, navigation, and summarization

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7119837B2 (en) * 2002-06-28 2006-10-10 Microsoft Corporation Video processing system and method for automatic enhancement of digital video
CN102254265A (zh) * 2010-05-18 2011-11-23 北京首家通信技术有限公司 一种富媒体互联网广告内容匹配、效果评估方法
WO2012015958A2 (en) * 2010-07-27 2012-02-02 Davis Frederic E Semantically generating personalized recommendations based on social feeds to a user in real-time and display methods thereof
RU2571373C2 (ru) * 2014-03-31 2015-12-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Метод анализа тональности текстовых данных

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090256972A1 (en) * 2008-04-11 2009-10-15 Arun Ramaswamy Methods and apparatus to generate and use content-aware watermarks
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
US20120011109A1 (en) * 2010-07-09 2012-01-12 Comcast Cable Communications, Llc Automatic Segmentation of Video
US20120123978A1 (en) * 2010-11-11 2012-05-17 Google Inc. Learning Tags for Video Annotation Using Latent Subtags
US20160092561A1 (en) * 2014-09-30 2016-03-31 Apple Inc. Video analysis techniques for improved editing, navigation, and summarization

Also Published As

Publication number Publication date
CN108509465B (zh) 2022-03-15
US20180249193A1 (en) 2018-08-30
TW201834462A (zh) 2018-09-16
WO2018160370A1 (en) 2018-09-07
CN108509465A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
TWI753035B (zh) 視訊資料的推薦方法、裝置和伺服器
CN109844708B (zh) 通过聊天机器人推荐媒体内容
US20190294668A1 (en) Methods and systems for generating contextual data elements for effective consumption of multimedia
US7707162B2 (en) Method and apparatus for classifying multimedia artifacts using ontology selection and semantic classification
Shah et al. Multimodal analysis of user-generated multimedia content
Amato et al. AI in the media and creative industries
Deldjoo et al. Multimedia recommender systems: Algorithms and challenges
WO2017096877A1 (zh) 一种推荐方法和装置
US10762150B2 (en) Searching method and searching apparatus based on neural network and search engine
WO2021120818A1 (en) Methods and systems for managing image collection
JP2007122683A (ja) 情報処理装置、情報処理方法、およびプログラム
US20210117471A1 (en) Method and system for automatically generating a video from an online product representation
CN111259192A (zh) 音频推荐方法和装置
GB2601517A (en) A method, apparatus and program for classifying subject matter of content in a webpage
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN109582869A (zh) 一种数据处理方法、装置和用于数据处理的装置
Kächele et al. Revisiting the EmotiW challenge: how wild is it really? Classification of human emotions in movie snippets based on multiple features
Lu et al. Learning the relation between interested objects and aesthetic region for image cropping
CN116051192A (zh) 处理数据的方法和装置
Shen et al. Accurate online video tagging via probabilistic hybrid modeling
Oosterhuis et al. Semantic video trailers
Feng et al. Multiple style exploration for story unit segmentation of broadcast news video
MacFarlane et al. On machine learning and knowledge organization in multimedia information retrieval
Chisholm et al. Audio-based affect detection in web videos
Ben-Ahmed et al. Eurecom@ mediaeval 2017: Media genre inference for predicting media interestingnes