TW202143740A - 可調適視訊串流系統與方法 - Google Patents
可調適視訊串流系統與方法 Download PDFInfo
- Publication number
- TW202143740A TW202143740A TW110116484A TW110116484A TW202143740A TW 202143740 A TW202143740 A TW 202143740A TW 110116484 A TW110116484 A TW 110116484A TW 110116484 A TW110116484 A TW 110116484A TW 202143740 A TW202143740 A TW 202143740A
- Authority
- TW
- Taiwan
- Prior art keywords
- video content
- scaled
- model
- video
- client device
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000003044 adaptive effect Effects 0.000 title description 3
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000003860 storage Methods 0.000 claims description 21
- 238000013341 scale-up Methods 0.000 claims description 18
- 238000012368 scale-down model Methods 0.000 claims 2
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 54
- 238000004891 communication Methods 0.000 description 20
- 238000013473 artificial intelligence Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 16
- 238000003062 neural network model Methods 0.000 description 13
- 238000009826 distribution Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1069—Session establishment or de-establishment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
- H04L65/612—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/756—Media network packet handling adapting media to device capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234363—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/24—Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
- H04N21/2402—Monitoring of the downstream path of the transmission network, e.g. bandwidth available
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/251—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25808—Management of client data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25808—Management of client data
- H04N21/25825—Management of client data involving client display capabilities, e.g. screen resolution of a mobile phone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Computer Security & Cryptography (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本文揭示一種用於串流視訊內容之系統及方法,其包括使用一按比例縮小模型將視訊內容按比例縮小以產生經按比例縮小之視訊內容,及將作為一視訊串流之該經按比例縮小視訊內容及一對應之按比例放大模型下載至一用戶端裝置。該用戶端裝置使用所接收之按比例放大模型將該視訊串流按比例放大以用於由該用戶端裝置即時顯示。一訓練系統基於識別視訊內容類型之關聯元資料訓練該按比例縮小模型,以產生該經按比例縮小之視訊內容。該經按比例縮小之視訊內容及一或多個關聯按比例放大模型經儲存以供一邊緣伺服器存取,其下載複數個按比例放大模型至一用戶端裝置,該用戶端裝置經組態以選擇一按比例放大模型以供該用戶端裝置使用。舉例來說,系統可包括視訊串流系統及視訊會議系統。
Description
本發明一般而言係關於將音訊、視訊及相關內容串流至一用戶端裝置。更特定而言,例如,本發明具體實施例係關於用於在一內容分布網路中調適視訊串流至用戶端裝置之系統及方法。
視訊串流服務提供視訊、音訊及其它相關內容之應需串流至用戶端。在一些系統中,一內容提供者製作用戶端訂閱戶可取得之電影、電視節目及其它視訊內容。該等用戶端訂閱戶可自不同之位置,跨各種不同之網路連接操作不同之裝置。因此視訊串流服務面臨著向各用戶端訂閱戶傳送高品質內容的挑戰。另一項挑戰是針對在一應需服務平台中服務各用戶端所需之不同格式管理及儲存視訊內容,特別是當視訊內容量持續增加時。
鑑於以上所述,本技術持續需要改善之內容傳送系統及方法,其將高品質應需內容提供給各種用戶端,同時可有效利用內容提供者資源。
本文揭示使用人工智慧調適地串流視訊內容之系統及方法的各種具體實施例。
視訊串流服務在網際網路協定(Internet Protocol,IP)網路上將視訊內容傳送至用戶端裝置。為適應各種用戶端裝置、網路速度及位置,視訊串流服務通常使用已知作為調適位元率串流之協定,其藉由偵測一用戶端之網路頻寬及裝置處理容量及即時相應地調整該媒體串流之品質來作用。
在一些具體實施例中,使用一編碼器進行調適位元率串流,該編碼器可以多種位元率來將單一來源媒體(視訊或音訊)編碼成各種串流,其中各串流分成一序列之「塊」(chunks,例如,1-2秒之區塊)以用於傳送至該串流用戶端。通常需要以針對網路資源及用戶端裝置最佳化之解析度向用戶端裝置提供視訊。例如,不同用戶端裝置可具有不同之螢幕解析度,且可最佳化所傳送內容以用於將視訊以其最大螢幕解析度(例如,4K電視將要求2160p串流,FHD電視將要求1080p串流,及行動電話可要求720p串流)傳送至各裝置。
該網路頻寬亦對串流品質提供限制。例如,若該用戶端針對4K電視在具有20-30Mbps頻寬(其係4K串流所需)之網路上接收該視訊,可顯示高品質視訊。然而,若該網路頻寬降至10Mbps(例如,由於網路擁塞),則用戶端可偵測其未及時接收該等視訊塊,並自下一塊要求一較低解析度(例如,1080p版本)之串流。當該頻寬回升時,該用戶端可自下一塊拉取4K串流。在一些具體實施例中,在該TV或STB或行動/平板單晶片系統(System on a Chip,SoC)以硬體按比例放大縮放器(例如,使用雙立方內插)接收、解碼及按比例放大該較低解析度影像塊(例如,1080p)以匹配該顯示裝置之解析度。
在各種本發明具體實施例中,該等邊緣伺服器(edge server)及/或其它裝置組態有神經網路加速器,包括一人工智慧處理器架構,其包括完全可編程向量單位(VPU)及用於池化(pooling)、卷積及全連接神經網路層之專屬處理引擎。可將該神經網路加速器嵌入一視訊SoC中,其亦包括視訊縮放引擎(例如,按比例放大器(upscaler)及/或按比例縮小器(downscaler))。本文揭示之該等按比例放大技術優於習知之硬體縮放器,因其可提供更佳之感知品質,且一神經網路模型可經訓練成一特定內容集(例如,電影戲劇、動作電影、運動賽事等等)。該神經網路模型作為一可訓練(trainable)之過濾器操作且其可勝過硬體縮放器,特別是在銳化高頻率區域周圍,例如邊緣。
在一些具體實施例中,使用基於人工智慧之解析度縮放器使得該內容分布系統可減少在該編碼伺服器側上以不同解析度儲存之串流數目,藉此減少儲存成本。在一具體實施例中,將單一串流連同一解析度縮放模型一起儲存並提供給各種用戶端裝置,以將該串流按比例放大至所需螢幕解析度。該神經網路模型可為視訊完整串流之尺寸的一部份。例如,自1080p按比例放大至2160p之該神經網路模型可包含一5 MB下載量,而對於全長電影(90 分鐘長)之串流可能大約為6750 MB,省下了6 GB之儲存量及相關之網路頻寬。
該內容傳送系統可定義複數個縮放模型以用於傳送至該用戶端裝置。例如,若該內容串流為720p解析度,則該系統可具有用於將該視訊內容按比例放大至1080p之一按比例放大模型及用於將該視訊內容按比例放大至2160p之另一按比例放大模型。本文揭示之系統及方法在該用戶端裝置上提供良好品質之按比例放大視訊,而無需內容伺服器儲存及切換多個串流以適應可得之網路頻寬之負擔。該內容伺服器可經組態以在串流對話開始處下載該等神經網路縮放模型,其可針對待串流之特定類型的內容訓練,諸如:戲劇、快節奏動作、運動等等。
本發明提供許多勝過習知系統的優點。硬體縮放器可進行單一串流之按比例放大,但最終品質不是很好(例如,因為該模型並不適合該內容)。在本發明中,神經網路縮放提供經改善的圖片品質及微調(tweak)該縮放以適合待按比例放大之內容的能力。已觀察到本文揭示之具體實施例較習知之雙立方內插方法可將峰值訊噪比(Peak-signal-to-noise-ratio,PSNR)改善4或更多分貝(DB),導致改善人眼之感知影像品質。
習用系統亦要求儲存多個版本之視訊內容,以用於各種解析度(例如,1080P、4k等等)及頻寬。在許多系統中,該內容伺服器及裝置交換訊息以例如基於目前頻寬容量及用戶端處理及顯示能力來判定串流何種內容。與習知調適縮放技術相比,本發明之進一步益處包括減少在該內容伺服器處或在雲端中之儲存成本、減少用戶端串流軟體之複雜性、減少效能追蹤及通訊之需求,及由於該用戶端不再需要判斷播放哪一種解析度串流而減少之潛時。本發明亦可用來改善串流基礎建設受限之位置中的圖片品質。
本文揭示之系統及方法亦可與其它視訊串流應用程式一起使用,諸如視訊會議應用程式。視訊通話之網路挑戰包括下游頻寬限制及上游頻寬限制兩者。視訊對話在該通話中在各用戶端裝置上可包括神經網路解析度縮放器。例如,以360p或480p即時擷取的視訊可使用本文揭示之神經網路縮放器按比例放大至1080p以提供該使用者更高的感知品質。
參照圖1,現將根據一或多個本發明具體實施例描述一實例內容分布網路100。在所例示之具體實施例中,內容分布網路100包括含有一或多個內容伺服器112之內容傳送系統110、一或多個邊緣伺服器130及一或多個用戶端裝置150。
內容傳送系統110進一步包括內容儲存器114,其用於儲存視訊內容以供內容分布網路100分布;及神經網路縮放部件116,其用於訓練該內容傳送系統所用之縮放神經網路。內容伺服器112在一網路120上通訊地耦合至邊緣伺服器130,其可包括一或多個有線及/或無線通信網路。內容傳送系統110經組態以在內容儲存器114中儲存視訊內容,包括:音訊資料、視訊資料及其它媒體資料,該內容儲存器可包括一或多個資料庫、儲存裝置及/或儲存網路。
邊緣伺服器130經組態以自內容伺服器112接收媒體內容及神經網路縮放模型並串流該媒體內容,並將該等神經網路縮放模型傳送至用戶端裝置150。邊緣伺服器130可經地理上分布以跨區域網路140而將媒體服務提供給區域用戶端裝置150。用戶端裝置150可存取在通過一或多個網路120及140連接之任何數目之邊緣伺服器130上的內容。
圖1例示一內容傳送網路之一實例具體實施例。其它具體實施例可包括更多元件、更少元件及/或不同元件,且本文所述之各種部件可分布在多個裝置及/或網路,及/或視需要組合在一或多個裝置內。
在操作上,內容傳送系統110接收媒體內容及編碼該媒體內容以用於傳送至用戶端裝置。該編碼程序可包括訓練一或多個神經網路以縮放該媒體內容,使得單一媒體檔案與經訓練神經網路縮放模型一起傳送至一用戶端裝置。在一些具體實施例中,按比例放大神經網路模型及按比例縮小神經網路模型可經訓練以適應不同的通信頻寬、處理資源,以及與各用戶端裝置150相關之顯示解析度。接著將該編碼媒體內容及關聯神經網路模型分布至一或多個邊緣伺服器130以用於傳送至用戶端裝置。
各用戶端裝置150包括或連接至一顯示器及音訊輸出資源。使用者可存取在用戶端裝置150上之一應用程式,以選擇及串流可用於自一邊緣伺服器130串流之媒體內容134。用戶端裝置150接收與該媒體內容關聯之神經網路模型136以及媒體內容之一串流。該用戶端裝置經組態以解碼所串流之媒體內容,使用所選縮放神經網路縮放該媒體內容並將該經解碼及縮放之媒體內容傳送至該顯示器及音訊輸出資源。在一些具體實施例中,下載該媒體檔案以在之後回放,且可在回放期間進行解碼及縮放操作。
在各種具體實施例中,用戶端裝置150可包括一個人電腦、筆記型電腦、平板電腦、行動裝置、視訊顯示系統,或如本文所述經組態以自一邊緣伺服器130接收並播放媒體內容之其它裝置。
圖2例示根據一或多個具體實施例之實例媒體伺服器部件,其可在一內容傳送網路之一或多個實體裝置中實行。如所例示,媒體伺服器200包括通信部件202、儲存部件204、處理部件206及程式記憶體208。媒體伺服器200可表示任何類型之網路視訊伺服器,其經組態以進行本文揭示之一些或所有處理步驟。在圖2中所例示之該等部件可作為一獨立伺服器實行,可分布在複數個不同裝置中,及可包括額外部件。
處理部件206可經實施作為任何合適之處理裝置〔例如,邏輯裝置、微控制器、處理器、特定應用積體電路(Application specific integrated circuit,ASIC)、現場可程式閘陣列(Field programmable gate array,FPGA),或其它裝置〕,其可由媒體伺服器200使用以執行適當之指令,諸如:儲存在程式記憶體208中之軟體指令,該程式記憶體208包括神經網路訓練部件210、媒體編碼部件212、媒體縮放部件214及媒體串流部件216。
程式記憶體208可包括一或多個記憶體裝置(例如,記憶體部件),其儲存資料及資訊,包括:影像資料(例如,包括熱成像資料)、音訊資料、網路資訊、攝影機資訊,及/或其它類型之感測器資料,及/或其它監測資訊。該等記憶體裝置可包括用於資訊儲存之各種類型的記憶體,包括揮發性及非揮發性記憶體裝置,諸如RAM(Random Access Memory,隨機存取記憶體)、ROM(Read-Only Memory,唯讀記憶體)、EEPROM(Electrically-Erasable Read-Only Memory,電子可抹除唯讀記憶體)、快閃記 憶體、磁碟機,及本文所述之其它類型的記憶體。在一些具體實施例中,處理部件206經組態以執行儲存在程式記憶體208中之軟體指令以執行本文所述之各種方法、程序或操作。儲存部件204可包含記憶體部件及大量儲存裝置,諸如儲存區域網路、雲端儲存器,或經組態以儲存媒體內容及神經網路資訊之其它儲存部件。
通信部件202可包括用於使用各種通信協定與其它裝置通信之電路或其它部件。例如,通信部件202可包括有線及/或無線通信部件,諸如在一或多個網路(諸如峰巢式網路、網際網路或其它通信網路)上產生、接收及/或處理通信信號之部件。通信部件202可用來接收媒體內容以用於串流至一或多個用戶端裝置。該媒體內容可包括視訊串流及檔案,其諸如以工業標準視訊壓縮格式壓縮(該等格式可包括:MPEG-2、MPEG-4、H.263、H.264、HEVC、AV1及MJPEG標準)以減少網路頻寬、影像處理資源之使用、及儲存。
參照圖3,現將根據本發明之一或多個具體實施例描述一媒體用戶端300之實例部件。媒體用戶端300經組態以跨網路存取媒體伺服器200,以接收及處理媒體內容之一串流。媒體用戶端300包括通信部件302、顯示部件304、處理部件306及記憶體部件308。處理部件306可包括邏輯裝置、微控制器、處理器、特定應用積體電路(ASIC)、現場可程式閘陣列(FPGA),或可由媒體用戶端300使用以執行適當指令之其它裝置,諸如儲存在記憶體308中之軟體指令。
媒體用戶端300經組態以執行儲存於記憶體308中之一媒體串流應用程式312。媒體串流應用程式312可包括:一使用者介面310,其使一使用者可與該媒體伺服器介接並選擇在媒體用戶端300上回放之媒體;一邊緣伺服器介面312,其經組態以促成在媒體用戶端300及一媒體伺服器200之間的通信;及媒體回放模組314,以接收所串流之媒體內容及製作在顯示部件304(例如:電視、具揚聲器之電腦螢幕、行動電話等等)上輸出之媒體。媒體回放模組314可包括一解碼器316,其用於解碼及解壓縮所接收之視訊串流;及一神經網路縮放器318,其經組態以將所接收之媒體內容按比例放大以在媒體用戶端300上回放。
圖4例示根據一或多個具體實施例之一內容傳送系統之實例操作。內容傳送程序400在內容伺服器402開始,其製作媒體內容404(例如,電影)以用於串流。編碼器406將該媒體內容壓縮及編碼成該系統支援之一視訊檔案格式,以減少用於串流之檔案尺寸。媒體內容404亦以一媒體分析部件408分析,以判定該媒體之類型以用於進一步處理。媒體類型可包括戲劇、動作電影、運動賽事等等。
接著使用對應於所識別之媒體類型之一按比例縮小神經網路410將該媒體內容按比例縮小。內容伺服器402提供經編碼/降低取樣之媒體內容412及縮放神經網路414給邊緣伺服器420以用於串流至一或多個用戶端,諸如用戶端裝置440。邊緣伺服器420接收對媒體內容之要求,且邊緣伺服器420傳送關聯經編碼/降低取樣之媒體內容424及對應之縮放神經網路422。用戶端裝置440接收經編碼/降低取樣之媒體內容442,使用解碼器444解碼該媒體內容,並應用一適當縮放神經網路446以產生高解析度版本之媒體內容452,以用於在一媒體播放器450上回放。
所述之系統及方法降低用於傳送該媒體內容之頻寬要求。在一些具體實施例中,產生單一經編碼/按比例縮小之媒體內容412,並將其與一或多個縮放神經網路446一起傳送至一用戶端裝置440以在用戶端裝置440上按比例放大所傳送之媒體內容。在一些具體實施例中,用戶端裝置440監測該媒體串流以判定是否存在足夠頻寬以處理該串流媒體內容,並通知邊緣伺服器420以在傳送至用戶端裝置440前將經編碼/按比例縮小之媒體內容424降低取樣,以使得該系統將該內容進一步調適以用於無法處理該經編碼及降低取樣之媒體內容之尺寸的設備上。
在各種具體實施例中,使用在邊緣伺服器420及用戶端裝置440之間之可得頻寬選擇經編碼/按比例縮小之媒體內容424之解析度以最佳化視訊品質。然而在一些情況中,可在各種時刻減少/降級頻寬(例如,較一般網路流量高、網路或裝置故障或維護等等)。為適應低頻寬情境,縮放神經網路422可進一步包括按比例縮小神經網路及對應按比例放大神經網路。例如,偵測低頻寬情境之邊緣伺服器420及/或用戶端裝置440可為邊緣伺服器420產生一指令,以在串流至該用戶端裝置之前使用一縮放神經網路422按比例縮小媒體內容424,且該用戶端裝置將接收並應用適當之按比例放大神經網路446。在一實施中,將邊緣伺服器420組態為具有三個按比例放大器(例如,以處理四種輸出解析度)及一個按比例縮小器/按比例放大器對來針對低頻寬情境提供額外彈性可係足夠的。
熟習本技術者將了解本文揭示之系統及方法並不限於一應需媒體內容串流服務,且可應用於其它使用串流媒體之應用程式。例如,參照圖5,一視訊會議系統510可使用縮放神經網路以用於在二或多個用戶端裝置550之間通信。所例示之具體實施例顯示一VoIP系統,但應了解亦可使用其它視訊會議組態(包括點對點通信)。
視訊會議系統510包括用於管理用戶端裝置550之間通信的一對話管理器(session manager)。在一具體實施例中,對話管理器512分布縮放神經網路模型以供用戶端用於進入及輸出通信兩者。用戶端裝置550可自一使用者擷取音訊及視訊560並使用一按比例縮小神經網路模型562編碼/按比例縮小該媒體,以減少用於該上載之媒體串流的頻寬要求。同時,用戶端裝置550可經由對話管理器512自其它用戶端裝置550接收一下載之媒體串流。該用戶端裝置使用一按比例放大神經網路570解碼及按比例放大該下載之媒體,並為使用者572輸出該媒體。
在各種具體實施例中,用戶端裝置550可經組態以在已判定對於該等情況兩個端點皆為最佳之解析度下擷取該攝影機串流,藉此避免在傳輸之前按比例縮小該串流之需要。例如,兩個端點皆同意其等可以720p串流,且讓各別人工智慧按比例放大模型將該等串流放大至4K。在其它具體實施例中,同級間通信可在不使用中間對話管理器下建立,例如,藉由使用判定用於串流之該視訊解析度之一應用程式及/或協定,及用於處理該(等)進入之視訊串流的預定按比例放大神經網路模型。應了解在該寄存及同級間實施兩者中,該視訊會議系統皆可與超過兩個用戶端裝置一起使用。
參照圖6,現將根據一或多個具體實施例描述一實例人工智慧訓練系統600。在各種具體實施例中,訓練系統600包括一按比例縮小人工智慧訓練系統610,其經組態以訓練一或多個人工智慧以按比例縮小用於儲存及串流之原始視訊內容;以及一按比例放大人工智慧訓練系統660,其經組態以訓練一或多個人工智慧以供一用戶端裝置使用來按比例放大該經按比例縮小之視訊內容。
在一些具體實施例中,該等人工智慧包括神經網路,其包括用於按比例縮小之神經網路612,及用於按比例放大之神經網路662。例如,該等神經網路可包括一或多個卷積神經網路(Convolutional neural network, CNN),其接收一訓練資料集(諸如包括視訊內容622及元資料632之訓練資料集620,及包括經按比例縮小視訊內容672及元資料674之訓練資料集670),並輸出經縮放之視訊內容。
訓練資料集620可包括原始視訊內容622及元資料632,其識別視訊內容之類型(例如,動作電影、戲劇、運動賽事)。在一些具體實施例中,針對複數個不同類型之視訊內容之每一者訓練複數個神經網路612,以針對該內容將縮放最佳化。在一具體實施例中,訓練以通過神經網路612之向前傳遞開始,包括特徵萃取、複數個卷積層及池化層、複數個完全連接層、及包括所需分類之輸出層。接著,可使用通過神經網路612之向後傳遞以根據在該向前傳遞中所產生之錯誤更新該等CNN參數(例如,以減少縮放錯誤及/或改善經按比例縮小視訊內容640之影像品質)。在各種具體實施例中,可根據本發明使用其它程序以訓練該AI系統。
訓練資料集670可包括經按比例縮小視訊內容672及元資料674,其識別視訊內容之類型(例如,動作電影、戲劇、運動賽事)。在一些具體實施例中,針對複數個不同類型之視訊內容及所需輸出解析度之每一者訓練複數個神經網路662,以針對該內容將縮放最佳化。在一具體實施例中,訓練以通過神經網路662之向前傳遞開始,包括特徵萃取、複數個卷積層及池化層、複數個完全連接層、及包括所需分類之輸出層。接著,可使用通過神經網路662之向後傳遞以根據在該向前傳遞中所產生之錯誤更新該等CNN參數(例如,以減少縮放錯誤及/或改善與該原始視訊內容相比之經按比例放大視訊內容670之影像品質)。
在各種具體實施例中,可根據本發明使用其它程序以訓練該人工智慧系統。例如,一驗證程序可包括經由該訓練神經網路執行一測試資料集,並驗證該輸出影像品質(例如,如藉由PSNR測量)符合或超過一所需臨限值。在另一實例中,例如,藉由比較不同人工智慧模型之正確性及選擇訓練資料,以及最佳化該經縮放影像之品質的模型參數,可將自按比例縮小人工智慧訓練系統610、按比例放大人工智慧訓練系統660及該驗證程序偵測到的錯誤通過一人工智慧最佳化程序680分析及饋送回該等訓練系統,以將該等訓練模型最佳化。
前述揭示內容未意欲將本發明限制在所揭示之精確形式或特定使用領域。如此,根據本發明,無論本文明確描述或暗示,可預期本發明之各種替代具體實施例及/或修改。
本文提供之各種具體實施例可使用硬體、軟體或硬體與軟體之組合實行,且各種硬體與軟體部件可組合成包含軟體及/或硬體之組合之一或多個部件,而不背離本發明之精神。在應用時,可改變本文所述之各種步驟的順序,結合成合併步驟,及/或分拆成子步驟以提供本文所述之特徵。
根據所述之本發明之具體實施例,熟習本技術之人士將了解可在不背離本發明之範疇下對形式及細節進行改變。因此,本發明僅受申請專利範圍限制。
100:內容分布網路
110:內容傳送系統
112:內容伺服器
114:內容儲存器
116:神經網路縮放部件
120:網路
130:邊緣伺服器
132:邊緣內容儲存器
134:媒體內容
136:神經網路模型
140:區域網路;網路
150:用戶端裝置
200:媒體伺服器
202:通信部件
204:儲存部件
206:處理部件
208:程式記憶體
210:神經網路訓練部件
212:媒體編碼部件
214:媒體縮放部件
216:媒體串流部件
300:媒體用戶端
302:通信部件
304:顯示部件
306:處理部件
308:記憶體部件
310:使用者介面
312:邊緣伺服器介面
314:媒體回放模組
316:解碼器
318:神經網路縮放器
400:內容傳送程序
402:內容伺服器
404:媒體內容
406:編碼器
408:媒體分析部件
410:按比例縮小神經網路
412:經編碼/按比例縮小之媒體內容
414:縮放神經網路
420:邊緣伺服器
422:縮放神經網路
424:經編碼/按比例縮小之媒體內容
440:用戶端裝置
442:經編碼/按比例縮小之媒體內容
444:解碼器
446:縮放神經網路
450:媒體播放器
452:媒體內容
510:視訊會議系統
512:對話管理器
550:用戶端裝置
560:音訊及視訊
562:按比例縮小神經網路模型
570:按比例放大神經網路
572:使用者
600:人工智慧訓練系統
610:按比例縮小人工智慧訓練系統
612:神經網路
620:訓練資料集
622:視訊內容
632:元資料
640:經按比例縮小視訊內容
660:按比例放大AI訓練系統
662:神經網路
670:訓練資料集
672:經按比例縮小視訊內容
674:元資料
680:人工智慧最佳化程序
本發明之態樣及其優點可參照以下圖式及以下實施方式更佳地了解。應了解使用相似之參考數字以識別在一或多個該等圖式中所例示之相似元件,其中在圖式中之顯示係出於例示本發明具體實施例之目的,而非出於限制其之目的。在該等圖式中之部件不必按比例繪製,而是著重在清楚例示本發明之原理。
圖1係例示根據一或多個本發明具體實施例之一內容傳送系統的圖式。
圖2例示根據一或多個具體實施例之實例媒體伺服器部件,其可在一內容傳送系統之一或多個實體裝置中實行。
圖3例示根據一或多個具體實施例之用戶端裝置部件,其可在一或多個實體裝置中實行。
圖4例示根據一或多個具體實施例之一內容傳送系統之實例操作。
圖5例示根據一或多個具體實施例之一實例視訊會議系統。
圖6例示根據一或多個具體實施例之一實例人工智慧訓練系統。
400:內容傳送程序
402:內容伺服器
404:媒體內容
406:編碼器
408:媒體分析部件
410:按比例縮小神經網路
412:經編碼/按比例縮小之媒體內容
414:縮放神經網路
420:邊緣伺服器
422:縮放神經網路
424:經編碼/按比例縮小之媒體內容
440:用戶端裝置
442:經編碼/按比例縮小之媒體內容
444:解碼器
446:縮放神經網路
450:媒體播放器
452:媒體內容
Claims (16)
- 一種用於串流視訊內容之方法,其包含: 使用一按比例縮小模型將視訊內容按比例縮小以產生經按比例縮小之視訊內容;及 將該經按比例縮小視訊內容作為一視訊串流下載至一用戶端裝置,並將對應之一按比例放大模型下載至該用戶端裝置; 其中該用戶端裝置使用所接收之該按比例放大模型將該視訊串流按比例放大,以供該用戶端裝置即時顯示。
- 如請求項1之方法,其進一步包含訓練該按比例縮小模型以產生該經按比例縮小視訊內容。
- 如請求項1之方法,其中該視訊內容包括識別視訊內容類型之關聯元資料,且其中訓練該按比例縮小模型以針對該視訊內容類型產生該經按比例縮小之視訊內容。
- 如請求項1之方法,其中儲存該經按比例縮小視訊內容及一或多個關聯按比例放大模型以供一邊緣伺服器存取;及其中下載該經按比例縮小視訊內容及下載該按比例放大模型之步驟係由該邊緣伺服器執行。
- 如請求項1之方法,其中該邊緣伺服器將複數個按比例放大模型下載至該用戶端裝置;及其中該用戶端裝置經組態以選擇一按比例放大模型供該用戶端裝置使用。
- 如請求項1之方法,其中該方法係由一視訊串流系統執行。
- 如請求項1之方法,其進一步包含啟動一視訊會議對話。
- 一種系統,其包含: 一邊緣內容儲存器,其經組態以儲存視訊內容及對應之縮放模型;及 一邊緣伺服器,其經組態以接收一指令以將所選經儲存視訊內容串流至一用戶端裝置,並將該所選經儲存視訊內容及至少一個對應之縮放模型串流至該用戶端裝置。
- 如請求項8之系統,其進一步包含一主機系統,該主機系統經組態以使用一按比例縮小模型將視訊內容按比例縮小以產生經按比例縮小之視訊內容,並將該經按比例縮小視訊內容及一對應之按比例放大模型下載至該邊緣伺服器。
- 如請求項9之系統,其中該主機系統包含一按比例放大模型訓練系統,其經組態以產生該縮放模型。
- 如請求項10之系統,其中該按比例放大模型訓練系統偵測一視訊內容類型,並訓練該縮放模型以針對該視訊內容類型將視訊之按比例放大予以最佳化。
- 如請求項10之系統,其中該主機系統進一步包含一按比例縮小模型訓練系統,其經組態以訓練一按比例縮小模型來接收視訊內容並產生用於串流之經按比例縮小視訊內容。
- 如請求項9之系統,其中該視訊內容包括識別視訊內容類型之關聯元資料,且其中訓練該按比例縮小模型以針對該視訊內容類型產生該經按比例縮小視訊內容。
- 如請求項9之系統,其中該邊緣伺服器經組態以將複數個按比例放大模型下載至該用戶端裝置;及其中該用戶端裝置經組態以選擇一按比例放大模型供該用戶端裝置用於製備用於顯示之視訊串流。
- 如請求項9之系統,其中該系統係一視訊串流系統。
- 如請求項9之系統,其中該系統係一視訊會議對話。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063022337P | 2020-05-08 | 2020-05-08 | |
US63/022,337 | 2020-05-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202143740A true TW202143740A (zh) | 2021-11-16 |
Family
ID=78377977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110116484A TW202143740A (zh) | 2020-05-08 | 2021-05-07 | 可調適視訊串流系統與方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210352347A1 (zh) |
CN (1) | CN113630576A (zh) |
TW (1) | TW202143740A (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903297B (zh) * | 2021-12-07 | 2022-02-22 | 深圳金采科技有限公司 | 一种led显示屏幕的显示控制方法及系统 |
CN115118921B (zh) * | 2022-08-29 | 2023-01-20 | 全时云商务服务股份有限公司 | 一种云会议中视频合屏自适应输出的方法及系统 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060088105A1 (en) * | 2004-10-27 | 2006-04-27 | Bo Shen | Method and system for generating multiple transcoded outputs based on a single input |
US7545386B2 (en) * | 2006-12-07 | 2009-06-09 | Mobile Complete, Inc. | Unified mobile display emulator |
US8254444B2 (en) * | 2007-05-14 | 2012-08-28 | Samsung Electronics Co., Ltd. | System and method for phase adaptive occlusion detection based on motion vector field in digital video |
US8711198B2 (en) * | 2009-06-04 | 2014-04-29 | Hewlett-Packard Development Company, L.P. | Video conference |
WO2012060769A1 (en) * | 2010-11-03 | 2012-05-10 | Scalado Ab | Progressive multimedia synchronization |
US9674580B2 (en) * | 2012-03-31 | 2017-06-06 | Vipeline, Inc. | Method and system for recording video directly into an HTML framework |
US9571846B2 (en) * | 2013-09-27 | 2017-02-14 | Apple Inc. | Data storage and access in block processing pipelines |
US9887897B2 (en) * | 2014-04-18 | 2018-02-06 | Verizon Patent And Licensing Inc. | Bitrate selection for network usage control |
US10572735B2 (en) * | 2015-03-31 | 2020-02-25 | Beijing Shunyuan Kaihua Technology Limited | Detect sports video highlights for mobile computing devices |
US10749969B2 (en) * | 2015-12-29 | 2020-08-18 | Oath Inc. | Content presentation using a device set |
CN109426858B (zh) * | 2017-08-29 | 2021-04-06 | 京东方科技集团股份有限公司 | 神经网络、训练方法、图像处理方法及图像处理装置 |
RU2698414C1 (ru) * | 2018-09-21 | 2019-08-26 | Владимир Александрович Свириденко | Способ и устройство сжатия видеоинформации для передачи по каналам связи с меняющейся пропускной способностью и запоминания в системах хранения данных с использованием машинного обучения и нейросетей |
WO2020080873A1 (en) * | 2018-10-19 | 2020-04-23 | Samsung Electronics Co., Ltd. | Method and apparatus for streaming data |
US20200162789A1 (en) * | 2018-11-19 | 2020-05-21 | Zhan Ma | Method And Apparatus Of Collaborative Video Processing Through Learned Resolution Scaling |
US11089356B2 (en) * | 2019-03-26 | 2021-08-10 | Rovi Guides, Inc. | Systems and methods for media content hand-off based on type of buffered data |
US20200314480A1 (en) * | 2019-03-26 | 2020-10-01 | Rovi Guides, Inc. | Systems and methods for media content handoff |
KR20190084914A (ko) * | 2019-06-28 | 2019-07-17 | 엘지전자 주식회사 | 안마 제공 장치 및 안마 제공 장치의 제어 방법 |
KR20190117416A (ko) * | 2019-09-26 | 2019-10-16 | 엘지전자 주식회사 | 동영상 프레임 해상도를 향상시키기 위한 방법 및 장치 |
US11257276B2 (en) * | 2020-03-05 | 2022-02-22 | Disney Enterprises, Inc. | Appearance synthesis of digital faces |
US11470327B2 (en) * | 2020-03-30 | 2022-10-11 | Alibaba Group Holding Limited | Scene aware video content encoding |
US11688070B2 (en) * | 2020-06-25 | 2023-06-27 | Intel Corporation | Video frame segmentation using reduced resolution neural network and masks from previous frames |
-
2021
- 2021-05-07 CN CN202110494961.2A patent/CN113630576A/zh active Pending
- 2021-05-07 US US17/315,147 patent/US20210352347A1/en not_active Abandoned
- 2021-05-07 TW TW110116484A patent/TW202143740A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
US20210352347A1 (en) | 2021-11-11 |
CN113630576A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10356149B2 (en) | Adjusting encoding parameters at a mobile device based on a change in available network bandwidth | |
US9936206B2 (en) | Distributed encoding of a video stream | |
US9351020B2 (en) | On the fly transcoding of video on demand content for adaptive streaming | |
US10951930B2 (en) | Adaptive content delivery network | |
US8875208B1 (en) | High quality multimedia transmission from a mobile device for live and on-demand viewing | |
EP2129126A1 (en) | Transmission apparatus, transmission method, and reception apparatus | |
US11197051B2 (en) | Systems and methods for achieving optimal network bitrate | |
US20150249848A1 (en) | Intelligent Video Quality Adjustment | |
US8842159B2 (en) | Encoding processing for conferencing systems | |
KR100678891B1 (ko) | Av데이터 수신시 버퍼량을 컨텐츠 속성에 따라탄력적으로 조절하는 방법 및 장치 | |
CN112868229A (zh) | 用于流传输数据的方法和设备 | |
TW202143740A (zh) | 可調適視訊串流系統與方法 | |
US20230344889A1 (en) | Methods, systems, and apparatuses for adaptive bitrate ladder construction based on dynamically adjustable neural networks | |
WO2017077020A1 (en) | Contiguous streaming of media stream | |
KR100747664B1 (ko) | 대역폭에 적응적인 멀티미디어 데이터 처리방법 및 이를적용한 호스트장치 | |
KR101289758B1 (ko) | Hd영상 가변스트리밍 전송시스템 및 전송방법 | |
US20240223832A1 (en) | Video stream bitrate adjustment method and apparatus, computer device, and storage medium | |
WO2022037424A1 (zh) | 转码方法、装置、介质和电子设备 | |
Sangeetha et al. | An Effective Investigation for Quality of Service Enhancement of Content Delivery Network for HTTP Live Streaming Using H. 265 | |
Deshpande | Adaptive HTTP Streaming with Temporal Scalability in High Efficiency Video Coding (HEVC) |