TWI791402B - 自動影片剪輯系統及方法 - Google Patents
自動影片剪輯系統及方法 Download PDFInfo
- Publication number
- TWI791402B TWI791402B TW111116725A TW111116725A TWI791402B TW I791402 B TWI791402 B TW I791402B TW 111116725 A TW111116725 A TW 111116725A TW 111116725 A TW111116725 A TW 111116725A TW I791402 B TWI791402 B TW I791402B
- Authority
- TW
- Taiwan
- Prior art keywords
- images
- video
- detection results
- processor
- image
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000000463 material Substances 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims description 64
- 230000005540 biological transmission Effects 0.000 claims description 39
- 238000004891 communication Methods 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000013515 script Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/462—Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/181—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Television Signal Processing For Recording (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
本發明實施例提供一種自動影片剪輯系統及方法。在方法中,透過一台或更多台影像擷取裝置取得一張或更多張影像。依據那些影像的偵測結果傳送那些影像及偵測結果。依據那些影像及其偵測結果挑選多個影片素材。編輯那些影片素材,以產生影音片段集合。藉此,可達成自動轉播,進而減少人力。
Description
本發明是有關於一種影像處理技術,且特別是有關於一種自動影片剪輯系統及方法。
部份運動賽事的轉播需要出動大量人力在不同位置拍攝,以避免遺漏選手的精采動作。無法透過人員拍攝到的視角,還可能需要空拍機、機械手臂等輔助機器。
以高爾夫球比賽為例,全球兩百四十九個國家合計共有三萬八千多座高爾夫球場,其中以美國擁有最多,第二名為日本,第三名為加拿大。錦標賽的轉播吸引全球觀眾目光。高爾夫球轉播需出動大量人力,搭設高台架攝影機定點拍攝,提供空拍機空拍,並需要隨球員跟拍。賽前的佈線、賽中的拍攝、以及賽後的回復場地均需花費大量人力及物力。由此可知,單是一場轉播即可能所費不貲。
有鑑於此,本發明實施例提供一種自動影片剪輯系統及方法,提供自動化錄製及剪輯,以達成自動轉播,進而減少人力。
本發明實施例的自動影片剪輯系統包括(但不僅限於)一台或更多台駐點裝置及運算裝置。各駐點裝置包括(但不僅限於)一台或更多台影像擷取裝置、通訊收發器及處理器。影像擷取裝置用以取得一張或更多張影像。通訊收發器用以傳送或接收訊號。處理器耦接影像擷取裝置及通訊收發器。處理器用以依據那些影像的偵測結果透過通訊收發器傳送那些影像及偵測結果。運算裝置經配置用以依據那些影像及其偵測結果挑選多個影片素材。編輯那些影片素材,以產生影音片段集合。
本發明實施例的自動影片剪輯方法包括(但不僅限於)下列步驟:透過一台或更多台影像擷取裝置取得一張或更多張影像。依據那些影像的偵測結果傳送那些影像及偵測結果。依據那些影像及其偵測結果挑選多個影片素材。編輯那些影片素材,以產生影音片段集合。
基於上述,依據本發明實施例的自動影片剪輯系統及方法,佈建於多處的駐點裝置以不同視角拍攝影像,且影像傳輸至運算裝置以進行自動剪輯處理。除了提升觀看者的視覺體驗及娛樂感,還能進行場域監控,進而促使各類型場域進行數位轉型。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1是依據本發明一實施例的自動影片剪輯系統1的示意圖。請參照圖1,自動影片剪輯系統1包括(但不僅限於)一台或更多台駐點裝置10、運算裝置20及雲端伺服器30。
圖2是依據本發明一實施例的駐點裝置10的元件方塊圖。請參照圖2,駐點裝置10包括(但不僅限於)充電器或電源供應器11、太陽能板12、電池13、電源轉換器14、通訊收發器15、一台或更多台影像擷取裝置16、儲存器17及處理器18。
充電器或電源供應器11用以提供為駐點裝置10中的電子元件提供電源。在一實施例中,充電器或電源供應器11連接太陽能板12及/或電池13,以達成自主供電。圖3是依據本發明一實施例的駐點裝置10的立體示意圖及局部放大圖。請參照圖3,假設駐點裝置10是柱狀(但不以這形狀為限),太陽能板12可設於四面或地面(但不以這設置位置為限)。在其他實施例中,充電器或電源供應器11也可能連接市電或其他類型的電源。
電源轉換器14(可選地)耦接充電器或電源供應器11,並用以提供電壓、電流、相位或其他電力特性的轉變。
通訊收發器15耦接電源轉換器14。通訊收發器15可以是支援一個或更多世代的Wi-Fi、第4代(4G)、第5代(5G)或其他世代的行動網路的無線網路收發器。在一實施例中,通訊收發器15更包括一根或多根天線、放大器、混波器、濾波器等電路。通訊收發器15的天線可以是指向型天線或是可產生指定波束的天線陣列。在一實施例中,通訊收發器15用以傳送或接收訊號。
影像擷取裝置16可以是相機、攝影機、監視器、智慧型手機或具備影像擷取功能的電路,並據以擷取指定視野內的影像。在一實施例中,駐點裝置10包括多台影像擷取裝置16,並用以對相同或不同視野拍攝。以圖3為例,兩台影像擷取裝置16形成雙眼相機。在一些實施例中,影像擷取裝置16可擷取4K、8K或更高畫質影像。
儲存器17可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory,RAM)、唯讀記憶體(Read Only Memory,ROM)、快閃記憶體(flash memory)、傳統硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid-State Drive,SSD)或類似元件。在一實施例中,儲存器17用以儲存程式碼、軟體模組、組態配置、資料(例如,影像、偵測結果等)或檔案,並待後文詳述其實施例。
處理器18耦接電源轉換器14、通訊收發器15、影像擷取裝置16及儲存器17。處理器18可以是中央處理單元(Central Processing Unit,CPU)、圖形處理單元(Graphic Processing unit,GPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor,DSP)、可程式化控制器、現場可程式化邏輯閘陣列(Field Programmable Gate Array,FPGA)、特殊應用積體電路(Application-Specific Integrated Circuit,ASIC)、神經網路加速器或其他類似元件或上述元件的組合。在一實施例中,處理器18用以執行駐點裝置10的所有或部份作業,且可載入並執行儲存器17所儲存的各程式碼、軟體模組、檔案及資料。在一些實施例中,處理器18的功能可透過軟體或晶片實現。
運算裝置20及雲端伺服器30可以是智慧型手機、平板電腦、伺服器、雲端主機、或電腦主機。運算裝置20經由網路2連接駐點裝置10。運算裝置20經由核心網路3連接雲端伺服器30。在一些實施例中,運算裝置20的部分或全部功能可在雲端伺服器30上實現。
下文中,將搭配系統1中的各項裝置、元件及模組說明本發明實施例所述之方法。本方法的各個流程可依照實施情形而隨之調整,且並不僅限於此。
圖4是依據本發明一實施例的自動影片剪輯方法的流程圖。請參照圖4,一台或更多台的駐點裝置10的處理器18透過一台或更多台影像擷取裝置16取得一張或更多張影像(步驟S410)。具體而言,在場域(例如,球場、賽車場、體育場、或河濱公園)佈建複數駐點裝置10。駐點裝置10有一台或複數台相機鏡頭。利用不同位置及/或不同拍攝角度提升拍攝覆蓋率,並據以擷取影像。
在一實施例中,處理器18可依據影像擷取裝置16的視角拼接(stitch)那些影像擷取裝置16的影像。例如,在相同時間點的單一駐點裝置10所取得的各拍攝角度的影像拼接在一起。藉此,利用固定鏡頭可節省調整鏡頭角度的電能。即便以太陽能或電池供電,電力仍相當足夠。
處理器18依據那些影像的偵測結果傳送影像及偵測結果(步驟S420)。具體而言,賽事的轉播通常會呈現精彩片段,以提升觀看者的興致。部分駐點裝置10所拍攝到的畫面也許沒有選手、車、或運動狀態。巨量影像將造成運算及網路負擔。因此,駐點裝置10可依據偵測結果選擇全部或部分影像,並僅傳送所選的影像及對應的偵測結果。
圖5是依據本發明一實施例的精彩片段的產生的流程圖。請參照圖5,針對各駐點裝置10(假設M台,M為正整數)所擷取的影像IM1
1~IM1
M,各處理器18分別偵測一個或更多個目標物的位置、特徵及/或狀態,以產生各駐點裝置的影像的偵測結果D1
1~D1
M(步驟S510)。
目標物可以是選手、車輛、動物或任何指定物。而影像的物件偵測的演算法有很多種。特徵可以是目標物上的器官、元件、區域或點。狀態可以是特定運動行為。例如,走路、揮桿、打擊或翻車。
在一實施例中,處理器18可透過偵測模型決定那些影像的偵測結果。偵測模型是透過機器學習演算法所訓練。例如,YOLO(You Only Look Once)、SSD(Single Shot Detector)、ResNet、CSPNet、BiFPN或R-CNN。物件偵測可辨識目標物的類型或行為並框選其位置。
圖6是依據本發明一實施例的偵測的流程圖。請參照圖6,偵測模型的輸入是影像訊息(例如,特定色彩空間(例如,RGB(紅-綠-藍)或HSV(色彩-飽和度-明度))的輸入特徵圖)。處理器18可透過偵測模型進行目標物件或事件偵測(步驟S511)、特徵點偵測(步驟S512)及/或狀態辨識(步驟S513),並據以輸出位置、狀態及特徵點。
偵測模型所用的神經網路可能包括多個運算層。為了輕量化偵測模型,可調整偵測模型中的一個或更多的運算層。在一實施例中,可刪除非必要運算層或其中的部分通道,可降低模型深度與寬度,及/或可針對卷積層(convolution layer)這類的運算層進行調整(例如,改變成深度卷積層(depthwise convolution layer),並搭配N*N卷積層、激勵層(activation layer)與批次正規化層(batch normalization layer)等運算層(N為正整數);亦可修改運算層彼此間連接方式,例如跳躍連接等技術)。藉由上述調整機制來降低模型運算量並保有良好的準確度。在一實施例中,對於調整後的輕量化模型,加入欲偵測場域數據來重新優化/訓練模型。依據處理器18特性,修改偵測模型的內部權重資料,例如數據量化;加入軟硬體資料串流來提高訊號處理速度,例如深度串流(deepstream)技術。這輕量化模型可適用於運算能力較差的邊緣運算裝置,但本發明實施例不加以限制應用輕量化模型的裝置的運算能力。
在一實施例中,駐點裝置10的處理器18可依據影像的偵測結果透過通訊收發器15傳送傳輸要求。處理器18可判斷偵測結果是否符合傳輸條件。傳輸條件可以是影像出現特定目標物及/或其行為。例如,選手A、選手揮桿、選手傳球、或超車。若偵測結果符合傳輸條件,則駐點裝置10經由網路2傳送傳輸要求給運算裝置20。若偵測結果不符合傳輸條件,則駐點裝置10禁能/不傳送傳輸要求給運算裝置20。
運算裝置20排程多個傳輸要求並據以發出傳輸許可。例如,依據影像的拍攝時間順序排程傳輸要求。又例如,為了偵測結果中的特定目標物或目標事件提供優先順序。運算裝置20依據排程結果依序發出傳輸許可給對應駐點裝置10。
駐點裝置10的處理器18可依據傳輸許可透過通訊收發器15傳送影像及偵測結果。也就是,有取得傳輸許可才傳送影像。在尚未取得傳輸許可之前,禁能/不傳送影像。藉此,可有效利用頻寬。
請參照圖4,運算裝置20依據影像及影像的偵測結果挑選多個影片素材(步驟S430)。具體而言,請參照圖5,影像IM1
1~IM1
M及偵測結果D1
1~D1
M傳送至運算裝置20(步驟S520)之後,可先暫存在影像資料庫40。運算裝置20可針對不同目標物進行重新辨識(步驟S530),以針對目標物分類影像,並將分類後的影像作為這目標物的影片素材IM2、IM2
1~IM2
N。
圖7是依據本發明一實施例的特徵匹配的流程圖。請參照圖7,運算裝置20可依據來自不同駐點裝置10(例如,駐點裝置_0、駐點裝置_1、…、或駐點裝置_M)的影像中的一個或更多個目標物、駐點裝置10的位置及影像時間決定那些目標物的影片素材IM2、IM2
1~IM2
N(步驟S530)。例如,依據時間順序整合球員A的整場比賽影像或球員B的整場比賽影像。又例如,球員B移動到果嶺,運算裝置20選擇接近果嶺的駐點裝置10的影片素材。
在一實施例中,運算裝置20可透過前述偵測模組或另一個偵測模型辨識目標物或目標事件,並據以判斷這影像的分類結果。即,依據影像中的目標物或目標事件決定影像所屬的群組。例如,自連續影像中辨識出球員C,則將這些影像分類到球員C的群組。藉此,可有效區分場域內的不同目標物。在其他實施例中,運算裝置20可能直接採用駐點裝置10的偵測結果(例如,物件偵測的類型辨識)進行分類。
在一實施例中,運算裝置20可將各目標物的影像依據影像時間整合成整場影像。
在一些實施例中,運算裝置20所用的偵測模組也可以進行輕量化。例如,前述調整神經網路中的運算層及內部權重數據。
請參照圖4,運算裝置20編輯那些影片素材,以產生一個或更多個影音片段集合(步驟S440)。具體而言,影片素材仍僅是針對不同目標物的影像。然而,一般的轉播可能會切換不同目標物。而本發明實施例預期自動過濾多餘資訊並僅輸出精彩片段。此外,編輯可能涉及影像裁切、剪接、修改、縮放、風格套用、平滑化處理等。
請參照圖5,在一實施例中,運算裝置20可依據一個或更多個影像內容偏好挑選那些影片素材IM2
1~IM2
N中的多個精彩片段IM3、IM3
1~IM3
N(步驟S540)。影像內容偏好例如是擊球瞬間、入洞過程、超車瞬間、投球過程等。這些影像內容偏好可能因應用情境而改變,且本發明實施例不加以限制。而影音片段集合是一個或更多個精彩片段IM3、IM3
1~IM3
N的集合,並視情況調整部分或全部精彩片段IM3、IM3
1~IM3
N的畫面尺寸或內容。
在一實施例中,運算裝置20可將那些影片素材輸入剪輯模型,以輸出影音片段集合。這剪輯模型是透過機器學習演算法(例如,深度學習網路、隨機森林(random forest)或支援向量機(support vector machine,SVM))所訓練。機器學習演算法可分析訓練樣本以自中獲得規律,從而透過規律對未知資料預測。而偵測模型即是經學習後所建構出的機器學習模型,並據以對待評估資料推論。在一實施例中,剪輯模型將測試影像與其已知的影像內容偏好作為訓練樣本。藉此,剪輯模型可自影片素材中挑選出精彩片段,並據以串接成影音片段集合。
在一實施例中,運算裝置20可自各精彩片段中濾除多餘內容。多餘內容可能是目標物以外的其他物、景、圖案或文字。濾除方式可能是直接裁切或是改變成背景色。例如,圖8是依據本發明一實施例的影像過濾的示意圖。請參照圖8,運算裝置20自影像中框選出目標物的位置,並將框選範圍作為專注範圍FA。運算裝置20可剪裁專注範圍FA以外的影像。
在一實施例中,專注範圍FA也可能隨著目標物移動。例如,透過物件追蹤技術更新專注範圍FA的位置。而物件追蹤的演算法也有很多種。例如,光流法(optical flow)、排序法SORT(Simple Online and Realtime Tracking,SORT)或深度排序法(Deep SORT)、聯合檢測及嵌入向量(Joint Detection and Embedding,JDE)。
在一實施例中,運算裝置20可對精彩片段中的一個或更多個目標物提供特寫。例如,運算裝置20可基於目標物在影像中的所占比例對畫面中的目標物拉近(zoom in)或推遠(zoom out)(即,影像縮放),使目標物或其部分大致佔據影像中的特定比例(例如,百分之70、60或50)。藉此,可達成特寫效果。
在一些實施例中,剪輯模型經訓練影像過濾及/或目標物特寫。例如,剪輯模型將測試影像與其已知的過濾結果及/或特寫模式作為訓練樣本。
在一實施例中,在剪輯模型的訓練中,運算裝置20可建立一個或更多個目標物在影像中的位置與一個或更多個運鏡效果之間的關係。例如,若目標物左右移動,則提供左右平移運鏡。若目標物前後移動,則提供拉近或拉遠運鏡。藉此,輸入影片素材,即可輸出對應的運鏡效果。
在一實施例中,在剪輯模型的訓練中,運算裝置20可建立一個或更多個目標物與一個或更多個腳本之間的關係。藉此,輸入影片素材,即可輸出符合腳本的影音片段集合。例如,在第三洞,在球員D的揮桿過程中,依序取球員D的正面、側面及背面的畫面。須說明的是,腳本可能因應用情境而不同。例如,賽車的情境可能是,車手視角、賽道前視角及賽道側視角的切換。此外,腳本可能以文字或分鏡方式記錄。藉此,可將精彩片段組成影音片段集合。
在一實施例中,影音片段集合可經由核心網路3上傳到雲端伺服器30,以供用戶觀看或下載。此外,若運算及/或網路速度允許,也可達成即時轉播功能。
在一些實施例中,雲端伺服器30還可進一步分析賽事,甚至提供教練諮詢或場域監控等額外應用。
除了前述傳輸排程,本發明實施例還提供分散式影像擷取及暫存。圖9是依據本發明一實施例的多碼流的流程圖。請參照圖9,在一實施例中,一台或更多台影像擷取裝置16進行影像擷取並產生第一影像碼流FVS及第二影像碼流SVS。第一影像碼流FVS的解析度高於第二影像碼流SVS。例如,第一影像碼流FVS的解析度是4K且8百萬畫素,且第二影像碼流SVS是720P且2百萬畫素。第一影像碼流FVS及第二影像碼流SVS經由網路介面實體層傳送至處理器18。
處理器18可僅辨識第二影像碼流SVS中的一個或更多個目標物或一個或更多個目標事件以產生影像的偵測結果。具體而言,處理器18可解碼第二影像碼流SVS(步驟S910)。例如,第二影像碼流SVS是H.265編碼,則對第二影像碼流SVS解碼後可得成一張或更多張影像訊框(frame)的內容。處理器18可對影像訊框進行預處理(步驟S920)。例如,對比度增強、去雜訊或平滑化。處理器18可對進行影像訊框進行偵測(步驟S930)。即,步驟S420所述針對目標物的位置、特徵及/或狀態的偵測。在一實施例中,處理器18還可以設定影像中的興趣區域(Region of Interest),並僅偵測興趣區域內的目標物。在一實施例中,若採用網路介面傳輸,處理器18可設定影像擷取裝置16及處理器18的網路位置。
處理器18可依據影像的偵測結果儲存第一影像碼流FVS。若有偵測到目標物,則處理器18將這影像訊框對應的第一影像碼流FVS暫存在儲存器17或其他儲存裝置(例如,隨身碟、SD卡或資料庫)(步驟S940)。若未偵測到目標物,則處理器18刪除、丟棄或忽略這影像訊框對應的第一影像碼流FVS。此外,若有需要,可依據偵測結果對偵測模型除錯(步驟S950)。
接著,處理器18可透過通訊收發器15傳送傳輸要求。反應於取得傳輸許可而處理器18透過通訊收發器15傳送暫存的第一影像碼流FVS。運算裝置20可對這第一影像碼流FVS進行後續影片素材的挑選及影音片段集合的產生。
針對傳輸的資源分配,圖10是依據本發明一實施例的裝置佈建的示意圖。請參照圖10,運算裝置20可依據各駐點裝置10所發出的傳輸要求,分配無線電資源並決定這些駐點裝置10中的何者可取得傳輸許可。如同前述說明,駐點裝置10需要取得傳輸許可才能開始傳輸影像。
還值得注意的是,如圖10所示,駐點裝置10可進行點對點傳輸。也就是,駐點裝置10之間的傳輸。部分的駐點裝置10作為中繼站,以將來自遠處的影像依序傳送至運算裝置20。
圖11是依據本發明一實施例的視線(line of sight,LOS)傳播的示意圖。請參照圖11,駐點裝置10的通訊收發器15還包括指向型天線。駐點裝置10的指向型天線與另一駐點裝置10的指向型天線建立視線(line of sight,LOS)傳播。由於障礙物會影響傳輸損耗,且不利於傳輸。針對天線的輻射方向,可指向未有障礙物或障礙物較少的區域,並在這區域上另佈建一台駐點裝置10。如圖11所示,這些駐點裝置10之間的視線傳播可形成Z字或鋸齒狀的連線,從而提升傳輸品質。
另值得說明的是,影像傳輸利用行動網路可能會產生高額資費。雖然相較起來光纖網路的資費可能較低,但有線傳輸的佈線成本也不容忽視。而本發明實施例採用部分Wi-Fi結合指向型天線以進行點對點傳輸,再透過行動網路發送至外部網路。在公用(Industrial Scientific Medica,ISM)頻段中,以空曠的場域作為自然的無線傳輸通道,即可增進無線傳輸效果並節省成本。
在一實施例中,通訊收發器15可依據通道變化改變一個或更多個通訊參數(例如,增益、相位、編碼或調變),以維持傳輸品質。例如,將訊號強度維持在特定門檻值之上。
綜上所述,在本發明實施例的自動影片剪輯系統及方法中,佈建自動偵測目標物且自供電的駐點裝置,對影像排程傳輸,自動挑選影片素材並產生相關於精彩片段的影音片段集合。此外,針對無線傳輸提供視線(LOS)傳播。藉此,可免除人力,並提升用戶觀看體驗。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
1:自動影片剪輯系統
10:駐點裝置
20:運算裝置
30:雲端伺服器
11:充電器或電源供應器
12:太陽能板
13:電池
14:電源轉換器
15:通訊收發器
16:影像擷取裝置
17:儲存器
18:處理器
2:網路
3:核心網路
S410~S440、S510~S540、S511~S513、S910~S950:步驟
IM1
1~IM1
M:影像
D1
1~D1
M:偵測結果
40:影像資料庫
IM2、IM2
1~IM2
N:影片素材
IM3、IM3
1~IM3
N:精彩片段
FA:專注範圍
圖1是依據本發明一實施例的自動影片剪輯系統的示意圖。
圖2是依據本發明一實施例的駐點裝置的元件方塊圖。
圖3是依據本發明一實施例的駐點裝置的立體示意圖及局部放大圖。
圖4是依據本發明一實施例的自動影片剪輯方法的流程圖。
圖5是依據本發明一實施例的精彩片段的產生的流程圖。
圖6是依據本發明一實施例的偵測的流程圖。
圖7是依據本發明一實施例的特徵匹配的流程圖。
圖8是依據本發明一實施例的影像過濾的示意圖。
圖9是依據本發明一實施例的多碼流的流程圖。
圖10是依據本發明一實施例的裝置佈建的示意圖。
圖11是依據本發明一實施例的視線(line of sight,LOS)傳播的示意圖。
S410~S440:步驟
Claims (11)
- 一種自動影片剪輯系統,包括:至少一駐點裝置,其中每一該駐點裝置包括:至少一影像擷取裝置,用以取得多張影像;一通訊收發器,用以傳送或接收訊號;以及一處理器,耦接該至少一影像擷取裝置及該通訊收發器,並用以依據該些影像的偵測結果透過該通訊收發器傳送該些影像及該偵測結果;以及一運算裝置,經配置用以:依據該些影像及該些影像的偵測結果挑選多個影片素材;以及編輯該些影片素材,以產生一影音片段集合,其中該運算裝置更經配置用以:將該些影片素材輸入一剪輯模型,以輸出該影音片段集合,其中該剪輯模型是透過一機器學習演算法所訓練,在該剪輯模型的訓練中,建立至少一目標物在一該影像中的位置與至少一運鏡效果之間的關係;或建立該至少一目標物與因應用情境而不同的至少一腳本之間的關係。
- 如請求項1所述的自動影片剪輯系統,其中一該駐點裝置包括多個該影像擷取裝置,該處理器更經配置用以: 依據該些影像擷取裝置的視角拼接(stitch)該些影像擷取裝置的影像。
- 如請求項1所述的自動影片剪輯系統,其中一該駐點裝置包括一充電器或一電源供應器,且該充電器或該電源供應器連接一太陽能板或一電池。
- 如請求項1所述的自動影片剪輯系統,包括多個該駐點裝置,其中該些影像的偵測結果包括至少一目標物的位置、特徵及狀態中的至少一者,且該運算裝置更經配置用以:依據該些影像中的至少一目標物、該些駐點裝置的位置及一影像時間決定該至少一目標物的影片素材。
- 如請求項4所述的自動影片剪輯系統,其中該處理器更用以:透過一偵測模型決定該些影像的偵測結果,其中該偵測模型是透過一機器學習演算法所訓練;以及調整該偵測模型中的至少一運算層。
- 如請求項1所述的自動影片剪輯系統,其中該運算裝置更經配置用以:依據至少一影像內容偏好挑選該些影片素材中的多個精彩片段;以及自每一該精彩片段中濾除多餘內容或對一該精彩片段中的至少一目標物提供特寫。
- 如請求項1所述的自動影片剪輯系統,其中該至少一駐點裝置的該處理器依據該些影像的偵測結果透過該通訊收發器傳送一傳輸要求,該運算裝置排程多個該傳輸要求並據以發出一傳輸許可,且該處理器依據該傳輸許可透過該通訊收發器傳送該些影像。
- 如請求項7所述的自動影片剪輯系統,其中該至少一影像擷取裝置產生一第一影像碼流及一第二影像碼流,該第一影像碼流的解析度高於該第二影像碼流,該處理器辨識該第二影像碼流中的至少一目標物或至少一目標事件以產生該些影像的偵測結果,該處理器依據該些影像的偵測結果儲存該第一影像碼流,該處理器並反應於取得該傳輸許可而透過該通訊收發器傳送該第一影像碼流。
- 如請求項1所述的自動影片剪輯系統,包括多個該駐點裝置,其中該通訊收發器包括一指向型天線,一該駐點裝置的該指向型天線與另一該駐點裝置的該指向型天線建立一視線(line of sight,LOS)傳播。
- 如請求項1所述的自動影片剪輯系統,其中該通訊收發器依據一通道變化改變至少一通訊參數,以維持一傳輸品質。
- 一種自動影片剪輯方法,包括:透過至少一影像擷取裝置取得多張影像;依據該些影像的偵測結果傳送該些影像及該偵測結果;依據該些影像及該些影像的偵測結果挑選多個影片素材;以 及編輯該些影片素材,以產生一影音片段集合;將該些影片素材輸入一剪輯模型,以輸出該影音片段集合,其中該剪輯模型是透過一機器學習演算法所訓練,在該剪輯模型的訓練中,建立至少一目標物在一該影像中的位置與至少一運鏡效果之間的關係;或建立該至少一目標物與因應用情境而不同的至少一腳本之間的關係。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/830,345 US20230238034A1 (en) | 2022-01-24 | 2022-06-02 | Automatic video editing system and method |
JP2022169557A JP2023107729A (ja) | 2022-01-24 | 2022-10-24 | 自動映像編集システム及び方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263302129P | 2022-01-24 | 2022-01-24 | |
US63/302,129 | 2022-01-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI791402B true TWI791402B (zh) | 2023-02-01 |
TW202332249A TW202332249A (zh) | 2023-08-01 |
Family
ID=86689091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111116725A TWI791402B (zh) | 2022-01-24 | 2022-05-03 | 自動影片剪輯系統及方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230238034A1 (zh) |
JP (1) | JP2023107729A (zh) |
CN (1) | CN116546286A (zh) |
TW (1) | TWI791402B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201102836A (en) * | 2009-07-01 | 2011-01-16 | Gorilla Technology Inc | Content adaptive multimedia processing system and method for the same |
TW201513055A (zh) * | 2013-09-25 | 2015-04-01 | Chunghwa Telecom Co Ltd | 交通事故監控追蹤系統 |
CN112289347A (zh) * | 2020-11-02 | 2021-01-29 | 李宇航 | 一种基于机器学习的风格化智能视频剪辑方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004112153A (ja) * | 2002-09-17 | 2004-04-08 | Fujitsu Ltd | 映像処理システム |
US8711224B2 (en) * | 2007-08-06 | 2014-04-29 | Frostbyte Video, Inc. | Image capture system and method |
GB2465538B (en) * | 2008-08-01 | 2013-03-13 | Sony Corp | Method and apparatus for generating an event log |
US20100182436A1 (en) * | 2009-01-20 | 2010-07-22 | Core Action Group, Inc. | Venue platform |
US8023899B2 (en) * | 2009-04-30 | 2011-09-20 | Bandspeed, Inc. | Approach for selecting communications channels in communication systems to avoid interference |
WO2011001180A1 (en) * | 2009-07-01 | 2011-01-06 | E-Plate Limited | Video acquisition and compilation system and method of assembling and distributing a composite video |
US8929709B2 (en) * | 2012-06-11 | 2015-01-06 | Alpinereplay, Inc. | Automatic digital curation and tagging of action videos |
US20140002663A1 (en) * | 2012-06-19 | 2014-01-02 | Brendan John Garland | Automated photograph capture and retrieval system |
US20170125064A1 (en) * | 2015-11-03 | 2017-05-04 | Seastar Labs, Inc. | Method and Apparatus for Automatic Video Production |
JP7037056B2 (ja) * | 2018-06-29 | 2022-03-16 | 日本電信電話株式会社 | 制御装置及び制御方法 |
US11144749B1 (en) * | 2019-01-09 | 2021-10-12 | Idemia Identity & Security USA LLC | Classifying camera images to generate alerts |
CN110533752B (zh) * | 2019-07-23 | 2023-04-07 | 深圳大学 | 一种人体动作编辑模型的生成方法、存储介质及电子设备 |
US11832025B2 (en) * | 2020-02-02 | 2023-11-28 | Delta Thermal, Inc. | System and methods for computerized health and safety assessments |
US11941080B2 (en) * | 2021-05-20 | 2024-03-26 | Retrocausal, Inc. | System and method for learning human activities from video demonstrations using video augmentation |
US11508413B1 (en) * | 2021-08-27 | 2022-11-22 | Verizon Patent And Licensing Inc. | Systems and methods for editing media composition from media assets |
US11516158B1 (en) * | 2022-04-20 | 2022-11-29 | LeadIQ, Inc. | Neural network-facilitated linguistically complex message generation systems and methods |
-
2022
- 2022-05-03 TW TW111116725A patent/TWI791402B/zh active
- 2022-06-02 US US17/830,345 patent/US20230238034A1/en not_active Abandoned
- 2022-06-07 CN CN202210634754.7A patent/CN116546286A/zh active Pending
- 2022-10-24 JP JP2022169557A patent/JP2023107729A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201102836A (en) * | 2009-07-01 | 2011-01-16 | Gorilla Technology Inc | Content adaptive multimedia processing system and method for the same |
TW201513055A (zh) * | 2013-09-25 | 2015-04-01 | Chunghwa Telecom Co Ltd | 交通事故監控追蹤系統 |
CN112289347A (zh) * | 2020-11-02 | 2021-01-29 | 李宇航 | 一种基于机器学习的风格化智能视频剪辑方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2023107729A (ja) | 2023-08-03 |
US20230238034A1 (en) | 2023-07-27 |
CN116546286A (zh) | 2023-08-04 |
TW202332249A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10554850B2 (en) | Video ingestion and clip creation | |
US11810597B2 (en) | Video ingestion and clip creation | |
JP6713537B2 (ja) | 複数のメディアストリームの処理 | |
EP3384678B1 (en) | Network-based event recording | |
US20150139601A1 (en) | Method, apparatus, and computer program product for automatic remix and summary creation using crowd-sourced intelligence | |
CN113315980B (zh) | 智能直播方法及直播物联网系统 | |
US10224073B2 (en) | Auto-directing media construction | |
CN111757138A (zh) | 一种基于单镜头直播视频的特写显示方法及装置 | |
WO2016192467A1 (zh) | 一种播放视频的方法及装置 | |
TWI791402B (zh) | 自動影片剪輯系統及方法 | |
CN117221626A (zh) | 一种视频数据处理方法及装置 | |
CN114666457A (zh) | 一种视音频节目的导播方法、装置、设备、系统及介质 | |
CN111246234B (zh) | 用于实时播放的方法、装置、电子设备和介质 | |
CN114697528A (zh) | 图像处理器、电子设备及对焦控制方法 | |
Al Qurashi et al. | Raw video database of mobile video quality prediction (mvqp) | |
CN115278364B (zh) | 一种视频流合成方法及装置 | |
TW202301874A (zh) | 視頻資料傳輸方法、電子裝置及存儲介質 | |
CN112969028A (zh) | 智能直播方法及直播物联网系统 | |
CN115240107A (zh) | 运动对象跟踪方法及装置、计算机可读介质和电子设备 | |
Liao et al. | An Automatic Kiss Camera System Using Deep Neural Network Technique | |
CN112383701A (zh) | 用于图像采集设备的控制方法、系统和硬件控制器 | |
US20170076177A1 (en) | Method and device for capturing a video in a communal acquisition | |
CN115278364A (zh) | 一种视频流合成方法及装置 | |
CN114501045A (zh) | 活动直播方法、装置、电子装置和存储介质 |