TWI815495B - 動態影像之處理方法、電子裝置及其連接之終端裝置與行動通訊裝置 - Google Patents

動態影像之處理方法、電子裝置及其連接之終端裝置與行動通訊裝置 Download PDF

Info

Publication number
TWI815495B
TWI815495B TW111120905A TW111120905A TWI815495B TW I815495 B TWI815495 B TW I815495B TW 111120905 A TW111120905 A TW 111120905A TW 111120905 A TW111120905 A TW 111120905A TW I815495 B TWI815495 B TW I815495B
Authority
TW
Taiwan
Prior art keywords
infant
initial image
video
database
electronic device
Prior art date
Application number
TW111120905A
Other languages
English (en)
Other versions
TW202349265A (zh
Inventor
周品妤
張育寧
李岳樺
吳明憲
黃宇軒
Original Assignee
仁寶電腦工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 仁寶電腦工業股份有限公司 filed Critical 仁寶電腦工業股份有限公司
Priority to TW111120905A priority Critical patent/TWI815495B/zh
Priority to US17/894,183 priority patent/US20230394822A1/en
Priority to CN202211071509.6A priority patent/CN117241140A/zh
Priority to EP22196764.9A priority patent/EP4290473A1/en
Application granted granted Critical
Publication of TWI815495B publication Critical patent/TWI815495B/zh
Publication of TW202349265A publication Critical patent/TW202349265A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本發明提供一種動態影像之處理方法,由一電子裝置通訊連結一攝影裝置且讀取一可執行碼所執行,處理方法包括預設對象辨識、影像篩選,以及影片串接之步驟。在影像篩選步驟中設定一篩選條件,包括一個以上的預設對象在初始影像中出現於一對焦區域內,預設對象在初始影像中符合篩選條件時,選定為初始影像中的一截取時點,而由影片串接步驟在初始影像中依截取時點選取一候選影片,並集合一個以上的候選影片而產生一串接影片。本發明也提供一種處理動態影像之電子裝置、一種與電子裝置連接之終端裝置,及一種行動通訊裝置。

Description

動態影像之處理方法、電子裝置及其連接之終端裝置與 行動通訊裝置
本發明係提供一種動態影像之處理技術,尤指一種動態影像之處理方法、電子裝置及其連接之終端裝置與行動通訊裝置。
習知一種嬰幼兒的監看系統,可由攝影機透過人工智能辨識而自動擷取影像,其擷取影像的條件主要是人臉表情或聲音的變化。然而,習知的監看系統有以下問題:
1.習知監看系統,通常只針對嬰幼兒為影像擷取對象,若是在影像中例如有一個嬰幼兒以及一個成人時,習知監看系統通常只會針對該嬰幼兒的人臉表情或聲音的變化為擷取條件,此時若符合該擷取條件,即使成人的人臉是位在鏡頭內的邊緣或角落時,此影像仍會被選中,但顯然會是屬於不滿意者。
2.再者,習知監看系統即使能以人臉表情或聲音的變化作為擷取影像的條件,但並無法針對表情或聲音的高低程度進行排序及篩選,例如從笑臉的挑選以開口大笑者優先於笑容者(或反之),又例如笑聲的挑選以高分貝優先於低分貝者(或反之),同樣需要在這些影像中透過人工剔除不滿意者。
因此,如何解決習知監看系統之上述問題,即為本發明之主要重點所在。
發明人遂竭其心智悉心研究,進而研發出一種動態影像之處理方法、電子裝置及其連接之終端裝置與行動通訊裝置,能夠將預設對象是否在初始影像中出現於對焦區域內作為篩選條件,以期達到篩選出的影像內容能符合需求。
為達上述目的,本發明提供一種動態影像之處理方法,其由一電子裝置通訊連接外部之一攝影裝置且讀取可執行碼所執行,以人工智能辨識一預設對象,並對預設對象進行動態影像之處理,包括預設對象辨識、影像篩選以及影片串接之步驟。在預設對象辨識之步驟,於自該攝影裝置所拍攝之一初始影像中,以人工智能辨識該預設對象;在影像篩選之步驟,設定一篩選條件,該篩選條件包括一個以上的該預設對象在該初始影像中出現於一對焦區域內,該預設對象在該初始影像中符合該篩選條件時,選定為該初始影像中的一截取時點;在影片串接之步驟,在該初始影像中依該截取時點選取一候選影片,並集合一個以上的該候選影片而產生一串接影片。
於一實施例中,該初始影像之整個畫面為矩形而包括一第一上邊、一第一下邊、一第一左邊及一第一右邊,該第一上邊和該第一下邊之間具有一第一寬度,且該第一左邊和該第一右邊之間具有一第二寬度;該對焦區域為小於該初始影像之整個畫面的一矩形預設範圍,該矩形預設範圍包括一第二上邊、一第二下邊、一第二左邊及一第二右邊,該第二上邊和該第二下邊之間 具有一第三寬度,且該第二左邊和該第二右邊之間具有一第四寬度,其中該第一寬度大於該第三寬度,且該第二寬度大於該第四寬度。
於一實施例中,該第一上邊和該第二上邊之間具有一上間距,該第一下邊和該第二下邊之間具有一下間距,該第一左邊和該第二左邊之間具有一左間距,該第一右邊和該第二右邊之間具有一右間距,其中該上間距和該下間距為等距或不等距,該左間距和該右間距為等距或不等距。
於一實施例中,該預設對象特定一嬰幼兒,該篩選條件更包括該初始影像中至少包含該嬰幼兒之臉部。
於一實施例中,該篩選條件更包括一由該嬰幼兒測得之環境音量,該篩選條件進一步包括該環境音量在一音量範圍內。
於一實施例中,該候選影片之選取,係依每個截取時點之該嬰幼兒的臉部表情進行分數高低排序,並挑選最高者;或者,依每個截取時點之該預設對象進行人臉面積高低排序,並挑選最高者。
於一實施例中,該預設對象的數量為兩個以上,而其中的至少一個為嬰幼兒,且至少一個為成人時,該篩選條件更包括計算所述初始影像中嬰幼兒之臉部及身體的數量,以及所述初始影像中成人之臉部及身體的數量,該篩選條件進一步包括該嬰幼兒和該成人兩者之臉部數量不小於兩者之身體數量。
於一實施例中,該影像篩選之步驟中,以選取該候選影片所對應之該截取時點為基準,而在其往前及/或往後之一預定時間內其他近似影像內容的截取時點被設定為排除。
於一實施例中,該影片串接之步驟中,以在該截取時點往前推算一片段時間以設定該候選影片之起始點,及/或在該截取時點往後推算該片段時間以設定該候選影片之結束點。
本發明另提供一種處理動態影像之電子裝置,其通訊連接外部之一攝影裝置與一資料庫而設,該資料庫接收自該攝影裝置所拍攝之一初始影像以人工智能辨識一預設對象,以所述電子裝置對該預設對象進行動態影像之處理,所述電子裝置包括:一智能處理單元,該智能處理單元電連接該攝影單元或該資料庫以讀取該初始影像,且讀取一可執行碼並執行,以設定符合時選定該初始影像中的一截取時點的一篩選條件,該篩選條件包括一個以上的該預設對象在該初始影像中出現於一對焦區域內,該對焦區域為小於該初始影像之整個畫面的一矩形預設範圍,該智能處理單元依該截取時點選取一候選片段候選影片,並選輯出可供推播至終端裝置之一精選影片串接影片。
於一實施例中,該資料庫為該電子裝置所屬之本機資料庫,及/或雲端資料庫。
於一實施例中,該預設對象至少包括一嬰幼兒,該資料庫進一步包括一身體智能辨識子資料庫,用以辨識該嬰幼兒之身體;一臉部智能辨識子資料庫,用以辨識該嬰幼兒之臉部;一哭泣智能辨識子資料庫,用以辨識該嬰幼兒之哭聲;及/或一微笑智能辨識子資料庫,用以辨識該嬰幼兒之微笑。
本發明另提供一種可與所述之電子裝置通訊連接之終端裝置,該終端裝置搭載一應用程式,該終端裝置執行該應用程式以自該電子裝置接收該串接影片之推播。
本發明另提供一種行動通訊裝置,其通訊連接一攝影單元及一雲端資料庫,所述行動通訊裝置包括一使用者介面用以顯示一個以上的串接影片,該串接影片係由一個以上儲存在該雲端資料庫的候選影片所集合而產生,所述候選影片是根據一截取時點所選取,該截取時點是該預設對象在一初始影像符合一篩選條件時所選定,而該篩選條件包括至少二個預設對象在該初始影像中同時出現於一對焦區域內。
藉此,預設對象在該初始影像中出現於一對焦區域內時符合篩選條件,所產生的串接影片中,能夠呈現一個以上的預設對象在畫面中較為均勻的比例,以符合使用者的期望。
再者,使用者可依個人需求,而從篩選條件中選取動作變化、人臉表情及/或聲音的程度為高或低者,以使產生之串接影片能更符合使用者的期望。
100:處理方法
101:預設對象辨識
102:影像篩選
103:影片串接
200:電子裝置
201:顯示畫面
300:終端裝置
400:攝影裝置
500:資料庫
501:身體智能辨識子資料庫
502:人臉智能辨識子資料庫
503:哭泣聲智能辨識子資料庫
504:笑容智能辨識子資料庫
10:智能處理單元
20:無線通訊單元
A、B:身體
F:對焦區域
P1:嬰幼兒
P2:成人
X、Y:人臉
V1:初始影像
V2:候選影片
V3:串接影片
U1:第一上邊
U2:第二上邊
D2:第二下邊
D1:第一下邊
L1:第一左邊
L2:第二左邊
R1:第一右邊
R2:第二右邊
W1:第一寬度
W2:第二寬度
W3:第三寬度
W4:第四寬度
S1:上間距
S2:下間距
S3:左間距
S4:右間距
圖1係本發明具體實施例之處理方法的主要步驟流程圖。
圖2係本發明具體實施例之處理方法的步驟說明方塊圖。
圖3係本發明具體實施例之電子裝置的方塊圖。
圖4係本發明另一具體實施例之電子裝置的方塊圖。
圖5係本發明具體實施例之篩選條件判斷方塊圖。
圖6係本發明具體實施例之電子裝置於後台操作介面顯示相關參數之畫面示意圖。
圖7係本發明具體實施例之截取時點選定之方塊圖。
圖8係本發明具體實施例之截取時點符合篩選條件之示意圖。
圖9係本發明具體實施例之截取時點不符合篩選條件之示意圖。
圖10係本發明具體實施例之串接影片以候選影片產生之方塊圖。
圖11係本發明具體實施例之串接影片推播至終端裝置之示意圖。
為充分瞭解本發明之目的、特徵及功效,茲藉由下述具體之實施例,並配合所附之圖式,對本發明做一詳細說明,說明如後:請參考圖1至圖11,本發明提供一種動態影像之處理方法100、電子裝置200及其連接之終端裝置300,與行動通訊裝置。所述處理方法100,包括預設對象辨識101、影像篩選102以及影片串接103之步驟;所述電子裝置200,包括一智能處理單元10以及一無線通訊單元20,其中:所述處理方法100,其由電子裝置200讀取一可執行碼所執行,以人工智能辨識預設對象,並對預設對象進行動態影像之處理,以執行如圖1所示預設對象辨識101、影像篩選102以及影片串接103之步驟。併參圖2之實施例,其執行預設時間內辨識是否有預設對象在初始影像中,為預設對象辨識101的步驟所執行;執行是否符合篩選條件以及選定截取時點,為影像篩選102的步驟所執行;以該截取時點擷取候選影片,並產生一串接影片,串接影片可供推播至終端裝置300,為影片串接103的步驟所執行。其中,預設時間內辨識有預設對象在初始影像中的判斷結果為「是」,且是否符合篩選條件的判斷結果為「是」時,進行選定截取時點、以該截取時點擷取候選影片,並剪輯一串接影片,以及推播至終端裝置之流程;若預設時間內辨識有預設對象在初始影像中的判斷 結果為「否」,或是否符合篩選條件的判斷結果為「否」時,回到流程開始而重新執行。
如圖3、4所示,為電子裝置200的一種實施例,其通訊連接一攝影裝置400與一資料庫500而設,資料庫500接收自攝影裝置400所拍攝之一初始影像V1以人工智能辨識一預設對象,以電子裝置200對預設對象進行動態影像之處理。智能處理單元10電連接攝影裝置400或資料庫500以讀取初始影像V1。於上述實施例中,攝影裝置400與資料庫500屬於外部裝置而獨立於電子裝置200,而在不同實施態樣時,攝影裝置400與資料庫500也可以是整合在電子裝置200中而系統化。
於一實施例中,攝影裝置400可以是網路攝影機,而資料庫500可以是雲端資料庫(如圖3所示),攝影裝置400經初始化後,可與資料庫500經由網際網路進行遠端通訊連接,並在完成身分驗證程序後登入(例如輸入帳號及密碼後登入),進行影像擷取和儲存。資料庫500除了可以是雲端資料庫外,也可以是電子裝置200所屬之本機資料庫(如圖4所示),又或者是電子裝置200之本機資料庫和雲端資料庫並用(圖中未示)。
所述處理方法100之執行,在預設對象辨識101的步驟,為自攝影裝置400所拍攝之初始影像V1中,以人工智能辨識有預設對象時,開始執行影像篩選102步驟。於一實施例中,預設對象的數量可以是多個,例如其中的至少一個為嬰幼兒P1,且至少一個為成人P2,但本發明不以此為限。
承上,在攝影裝置400啟動後,預設對象辨識101的步驟會以一預設時間(例如30秒)作為循環,若攝影裝置400在預設時間內辨識有預設對象在初始影像V1中,則開始執行影像篩選102步驟;但若在預設時間內未辨識有預 設對象在初始影像V1中,則在下一預設時間重覆執行預設對象辨識101步驟。其中,當在預設時間內未辨識有預設對象在初始影像V1中時,預設對象將比照上一預設時間最後辨識者,惟若上一預設時間同樣未辨識有預設對象則定義為無資料。所述人工智能辨識,例如透過類神經網路(Artificial Neural Network,ANN)執行,但本發明不以此為限。
在影像篩選102的步驟,設定一篩選條件,該篩選條件包括一個以上的預設對象在初始影像V1中出現於一對焦區域F內,且符合該篩選條件時,選定為初始影像V1中的一截取時點(Catch Moment)。
如圖8所示,於一實施例中,初始影像V1之整個畫面為矩形,括一第一上邊U1、一第一下邊D1、一第一左邊L1及一第一右邊R1,第一上邊U1和第一下邊D1之間具有一第一寬度W1,且第一左邊L1和第一右邊R1之間具有一第二寬度W2。所述對焦區域F,於一實施例中為小於初始影像V1之整個畫面的一矩形預設範圍,矩形預設範圍包括一第二上邊U2、一第二下邊D2、一第二左邊L2及一第二右邊R2,第二上邊U2和第二下邊D2之間具有一第三寬度W3,且第二左邊L2和第二右邊R2之間具有一第四寬度W4,其中第一寬度W1大於第三寬度W3,且第二寬度W2大於第四寬度W4。惟本發明不以此為限,例如第一寬度W1等於第三寬度W3,且第二寬度W2大於第四寬度W4;或例如第一寬度W1大於第三寬度W3,且第二寬度W2等於第四寬度W4,皆為本發明所欲保護之範疇。
承上,第一上邊U1和第二上邊U2之間具有一上間距S1,第一下邊D1和第二下邊D2之間具有一下間距S2,第一左邊L1和第二左邊L2之間具有一左間距S3,第一右邊R1和第二右邊R2之間具有一右間距S4,其中上間距S1和 下間距S2於此實施例中,且左間距S3和右間距S4之間亦為等距,此時對焦區域F的中心與初始影像V1的中心為相互對齊;惟本發明不以此為限,例如上間距S1和下間距S2為不等距,及/或左間距S3和右間距S4之間亦為不等距,此時對焦區域F的中心與初始影像V1的中心不相對齊,亦為本發明所欲保護之範疇。
於一實施例中,該篩選條件更包括初始影像V1中至少包含該嬰幼兒P1之人臉,以及一由嬰幼兒P1測得之環境音量在一音量範圍內,也包括是否偵測到嬰幼兒P1的臉部表情有笑容,以及是否偵測到嬰幼兒P1的哭泣聲。當一個以上的預設對象在初始影像V1中出現於對焦區域F內時,若進一步對嬰幼兒P1偵測到臉部表情有笑容(判斷結果為「是」),且沒有偵測到哭泣聲(判斷結果為「否」)時,是否符合篩選條件的判斷結果為「是」(如圖5所示);反之,即使一個以上的預設對象在初始影像V1中出現於對焦區域F內,但對嬰幼兒P1偵測到臉部表情沒有笑容(判斷結果為「否」),或有偵測到哭泣聲(判斷結果為「是」)時,是否符合篩選條件的判斷結果為「否」(如圖5所示)。
如圖6所示,為電子裝置200之後台操作介面的一顯示畫面201,其中標示出視角、環境音量、嬰幼兒是否在場景中、預設對象類型(成人/嬰幼兒)、臉部表情(例如笑容)及事件(是否有哭泣聲)等參數(數值僅為示意)。
再者,該影像篩選102之步驟中,以選取之候選影片V2所對應之該截取時點為基準,而在其往前及/或往後之一預定時間內其他近似影像內容的截取時點被設定為排除(併參圖7)。例如,以30秒至2分鐘的範圍內設定該預定時間,以設定為1分鐘為例,以該截取時點為基準而往前及往後各1分鐘內,即使有符合該篩選條件者,設定為排除而不選取。
於一實施例中,假設預設對象如前述至少一個為嬰幼兒P1,且至少一個為成人P2時,該篩選條件更包括計算初始影像V1中嬰幼兒P1之人臉Y及身體B的數量,以及初始影像V1中成人P2之人臉X及身體B的數量,進一步偵測所述嬰幼兒P1和成人P2兩者之人臉數量不小於兩者之身體數量。
前述嬰幼兒及成人之人臉及身體的偵測,根據圖8所示之顯示畫面201中(併參表1A與表1B如下),參照時間為03:52:13所列數據,包括座標點x1,y1,x2,y2為{1461,4,1896,450},以及信心值分數為0.98等數據,判斷為偵測到嬰幼兒的身體A,並以包括座標點x1,y1,x2,y2為{1416,29,1455,96},以及信心值分數為0.65等數據,判斷偵測到嬰幼兒的人臉X;再者,以包括座標點x1,y1,x2,y2為{1203,695,1497,825},以及信心值分數為0.52等數據,判斷偵測到成人的身體B,且以包括座標點x1,y1,x2,y2為{1674,9,1758,78},以及信心值分數為0.58等數據,判斷偵測到成人的人臉Y。在相同時間之中,身體C及人臉Z的座標點x1,y1,x2,y2皆為{0,0,0,0},且信心值分數亦皆為0。
Figure 111120905-A0305-02-0012-1
Figure 111120905-A0305-02-0012-2
Figure 111120905-A0305-02-0013-3
承上,根據時間為03:52:13所列數據,表示偵測到嬰幼兒P1之人臉數量及成人P2之人臉數量各為1,且嬰幼兒P1之身體及成人P2之身體的數量也各為1,此時嬰幼兒P1和成人P2兩者之人臉數量2等於兩者之身體數量2,符合該篩選條件,且嬰幼兒P1和成人P2兩者之人臉在初始影像V1中同時出現於對焦區域F內,此時在圖5中是否符合篩選條件的判斷結果為「是」,圖7中判斷人臉數量不小於身體的數量的結果為「是」,因而被選取。
又如圖9所示(併參表1A與表1B如上),參照時間為03:52:21所列數據,以同於圖8之嬰幼兒及成人之人臉及身體的偵測,可獲得結果為初始影像V1中偵測到嬰幼兒P1及成人P2之人臉的數量各為1,且嬰幼兒P1之身體的數量為1,而成人P2之身體的數量為0。然而,雖能獲得嬰幼兒P1和成人P2兩者之人臉數量2大於兩者之身體數量1,但在圖5中是否符合篩選條件的判斷時,已因成人P2的人臉在初始影像V1中並未同時出現於對焦區域F內,故是否符合篩選條件的判斷結果為「否」,無須再於圖7中判斷人臉數量是否不小於身體的數量,而已被排除。藉此,當預設對象的數量為兩個以上時,將以每個人的人臉都有出現於對焦區域F內才會被選取,而不會有某人只有身體而沒有出現臉部,或者是臉部位在邊緣或角落處的影像。
在影片串接103的步驟,為在初始影像V1中依該截取時點選取一候選影片V2(Video Clip),並集合一個以上的候選影片V2而產生一串接影片V3(併參圖10)。
於一實施例中,該影片串接103之步驟中,以在該截取時點往前推算一片段時間以設定候選影片V2之起始點,及/或在該截取時點往後推算該片段時間以設定該候選影片V2之結束點。於一實施例中,假設該片段時間設定為5秒,可以從該截取時點往前及往後推算各5秒,以擷取出每個從起始點到結束點的播放時間為10秒的候選影片V2。
再者,候選影片V2之選取,可以是依照每個截取時點之嬰幼兒P1的人臉表情進行分數高低排序,並挑選最高者;或者,也可以是依每個截取時點之預設對象進行人臉面積高低排序,並挑選最高者。所述依每個截取時點之嬰幼兒P1的人臉表情進行分數高低排序,例如以笑容為例,當嬰幼兒P1的笑容是微笑時的分數假設為0.3,但當嬰幼兒P1的笑容是開口大笑時的分數假設為1,此時會以開口大笑而分數為1者排序在最高而為被挑選者。另所述依每個截取時點之預設對象進行人臉面積高低排序,則是依所偵測到的人臉面積的大小進行排序,且排序在最高為被挑選者。因此,所挑選的截取時點,可以不僅是有笑容,而且還是開口大笑而笑容燦爛者;也可以是人臉面積最大者,故不僅僅是人臉上有表情即為被挑選者。
於一實施例中,該截取時點有多個,對應各該截取時間所選取之多個該候選影片V2,是儲存於電子裝置200所屬之本機資料庫及/或一雲端資料庫,而由多個候選影片V2串接成該串接影片V3。
於一實施例中,資料庫500進一步包括一身體智能辨識子資料庫501、一人臉智能辨識子資料庫502、一哭泣聲智能辨識子資料庫503,及/或一笑容智能辨識子資料庫504。其中,身體智能辨識子資料庫501用以辨識嬰幼兒P1之身體B,人臉智能辨識子資料庫502是用以辨識嬰幼兒P1之人臉Y,哭泣聲智能辨識子資料庫503是用以辨識嬰幼兒P1之哭泣聲,而笑容智能辨識子資料庫504則用以辨識嬰幼兒P1之笑容。
所述終端裝置300,可以是可攜式的行動通訊裝置,例如智慧型手機、平板電腦、筆記型電腦,能夠經由網際網路與電子裝置200之無線通訊單元20通訊連接,包括一使用者介面301用以顯示一個以上的串接影片V3(如圖11所示),該串接影片V3係由一個以上儲存在該雲端資料庫的候選影片V2所集合而產生,所述候選影片V2是根據一截取時點所選取,該截取時點是預設對象在一初始影像V1符合一篩選條件時所選定,而該篩選條件包括至少二個預設對象在初始影像V1中同時出現於對焦區域F內。終端裝置300搭載一應用程式302,透過終端裝置300執行該應用程式302,並且進行身分驗證程序(例如登入帳號及密碼)後登入,以自電子裝置200接收串接影片V3之推播(如圖11所示),使用者即可透過終端裝置300來觀賞串接影片V3。
由上述之說明不難發現本發明之特點,在於:
1.本發明之處理動態影像之處理方法及電子裝置,其篩選條件是在初始影像V1中包括的預設對象出現於對焦區域F內,符合篩選條件者才會被選定為截取時點,而依該截取時點選取的候選影片V2所產生的串接影片V3,其中預設對象能夠在畫面中呈現較為均勻的比例,而不會有預設對象的人臉是落在對焦區域F外,藉此讓候選影片V2所產生的串接影片V3能夠符合使用者的期 望。進而,所述串接影片V3能夠被推播至與所述電子裝置通訊連接之終端裝置300,可由終端裝置300與行動通訊裝置播放。
2.本發明之處理動態影像之處理方法及電子裝置,可以針對篩選條件的高低程度進行排序及篩選,以從所述篩選條件中選取程度為高或低者,以使產生之串接影片V3能更符合使用者的期望。
本發明在上文中已以較佳實施例揭露,然熟習本項技術者應理解的是,該實施例僅用於描繪本發明,而不應解讀為限制本發明之範圍。應注意的是,舉凡與該實施例等效之變化與置換,均應設為涵蓋於本發明之範疇內。因此,本發明之保護範圍當以申請專利範圍所界定者為準。
100:處理方法
101:預設對象辨識
102:影像篩選
103:影片串接

Claims (13)

  1. 一種動態影像之處理方法,其由一電子裝置通訊連接外部之一攝影裝置且讀取可執行碼所執行,以人工智能辨識一預設對象,並對預設對象進行動態影像之處理,包括以下步驟:預設對象辨識:於自該攝影裝置所拍攝之一初始影像中,以人工智能辨識該預設對象;影像篩選:設定一篩選條件,該篩選條件包括一個以上的該預設對象在該初始影像中出現於一對焦區域內,該預設對象在該初始影像中符合該篩選條件時,選定為該初始影像中的一截取時點;以及影片串接:在該初始影像中依該截取時點選取一候選影片,並集合一個以上的該候選影片而產生一串接影片;其中,該預設對象特定一嬰幼兒,該篩選條件更包括該初始影像中至少包含該嬰幼兒之臉部;其中,該預設對象的數量為兩個以上,而其中的至少一個為嬰幼兒,且至少一個為成人時,該篩選條件更包括計算所述初始影像中嬰幼兒之臉部及身體的數量,以及所述初始影像中成人之臉部及身體的數量,該篩選條件進一步包括該嬰幼兒和該成人兩者之臉部數量不小於兩者之身體數量。
  2. 如請求項1所述之動態影像之處理方法,其中,該影像篩選之步驟中,以選取該候選影片所對應之該截取時點為基準,而在其 往前及/或往後之一預定時間內其他近似影像內容的截取時點被設定為排除。
  3. 如請求項1所述之動態影像之處理方法,其中,該篩選條件更包括一由該嬰幼兒測得之環境音量,該篩選條件進一步包括該環境音量在一音量範圍內。
  4. 如請求項1所述之動態影像之處理方法,其中,該候選影片之選取,係依每個截取時點之該嬰幼兒的臉部表情進行分數高低排序,並挑選最高者;或者,依每個截取時點之該預設對象進行人臉面積高低排序,並挑選最高者。
  5. 如請求項1所述之動態影像之處理方法,其中,該影片串接之步驟中,以在該截取時點往前推算一片段時間以設定該候選影片之起始點,及/或在該截取時點往後推算該片段時間以設定該候選影片之結束點。
  6. 如請求項5所述之動態影像之處理方法,其中,該截取時點有多個,對應各該截取時間所選取之多個該候選影片儲存於該電子裝置及/或一雲端資料庫,且由該多個候選影片串接成該串接影片。
  7. 如請求項1所述之動態影像之處理方法,其中,該初始影像之整個畫面為矩形而包括一第一上邊、一第一下邊、一第一左邊及一第一右邊,該第一上邊和該第一下邊之間具有一第一寬度,且該第一左邊和該第一右邊之間具有一第二寬度;該對焦區域 為小於該初始影像之整個畫面的一矩形預設範圍,該矩形預設範圍包括一第二上邊、一第二下邊、一第二左邊及一第二右邊,該第二上邊和該第二下邊之間具有一第三寬度,且該第二左邊和該第二右邊之間具有一第四寬度,其中該第一寬度大於該第三寬度,且該第二寬度大於該第四寬度。
  8. 如請求項7所述之動態影像之處理方法,其中,該第一上邊和該第二上邊之間具有一上間距,該第一下邊和該第二下邊之間具有一下間距,該第一左邊和該第二左邊之間具有一左間距,該第一右邊和該第二右邊之間具有一右間距,其中該上間距和該下間距為等距或不等距,該左間距和該右間距為等距或不等距。
  9. 一種可與執行請求項1所述方法之所述電子裝置通訊連接之終端裝置,該終端裝置搭載一應用程式,該終端裝置執行該應用程式以自該電子裝置接收該精選影片串接影片之推播。
  10. 一種處理動態影像之電子裝置,其通訊連接外部之一攝影裝置與一資料庫而設,該資料庫接收自該攝影裝置所拍攝之一初始影像以人工智能辨識一預設對象,以所述電子裝置對該預設對象進行動態影像之處理,所述電子裝置包括:一智能處理單元,該智能處理單元電連接該攝影單元或該資料庫以讀取該初始影像,且讀取一可執行碼並執行,以設定符合時選定該初始影像中的一截取時點的一篩選條件,該篩選條件包括一個以上的該預設對象在該初始影像中出現於一對焦 區域內,該對焦區域為小於該初始影像之整個畫面的一矩形預設範圍,該智能處理單元依該截取時點選取一候選片段候選影片,並選輯出可供推播至終端裝置之一精選影片串接影片;其中,該預設對象特定一嬰幼兒,該篩選條件更包括該初始影像中至少包含該嬰幼兒之臉部;其中,該預設對象的數量為兩個以上,而其中的至少一個為嬰幼兒,且至少一個為成人時,該篩選條件更包括計算所述初始影像中嬰幼兒之臉部及身體的數量,以及所述初始影像中成人之臉部及身體的數量,該篩選條件進一步包括該嬰幼兒和該成人兩者之臉部數量不小於兩者之身體數量。
  11. 如請求項10所述之處理動態影像之電子裝置,其中,該資料庫為該電子裝置所屬之本機資料庫,及/或雲端資料庫。
  12. 如請求項11所述之處理動態影像之電子裝置,其中,該預設對象至少包括一嬰幼兒,該資料庫進一步包括一身體智能辨識子資料庫,用以辨識該嬰幼兒之身體;一臉部智能辨識子資料庫,用以辨識該嬰幼兒之臉部;一哭泣智能辨識子資料庫,用以辨識該嬰幼兒之哭聲;及/或一微笑智能辨識子資料庫,用以辨識該嬰幼兒之微笑。
  13. 一種行動通訊裝置,其通訊連接一攝影單元及一雲端資料庫,所述行動通訊裝置包括一使用者介面用以顯示一個以上的串接影片,該串接影片係由一個以上儲存在該雲端資料庫的候選影 片所集合而產生,所述候選影片是根據一截取時點所選取,該截取時點是該預設對象在一初始影像符合一篩選條件時所選定,而該篩選條件包括至少二個預設對象在該初始影像中同時出現於一對焦區域內;其中,該預設對象特定一嬰幼兒,該篩選條件更包括該初始影像中至少包含該嬰幼兒之臉部;其中,該至少二個預設對象的數量,其中的至少一個為嬰幼兒,且至少一個為成人時,該篩選條件更包括計算所述初始影像中嬰幼兒之臉部及身體的數量,以及所述初始影像中成人之臉部及身體的數量,該篩選條件進一步包括該嬰幼兒和該成人兩者之臉部數量不小於兩者之身體數量。
TW111120905A 2022-06-06 2022-06-06 動態影像之處理方法、電子裝置及其連接之終端裝置與行動通訊裝置 TWI815495B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
TW111120905A TWI815495B (zh) 2022-06-06 2022-06-06 動態影像之處理方法、電子裝置及其連接之終端裝置與行動通訊裝置
US17/894,183 US20230394822A1 (en) 2022-06-06 2022-08-24 Dynamic image processing method, electronic device, and terminal device and mobile communication device connected thereto
CN202211071509.6A CN117241140A (zh) 2022-06-06 2022-09-02 动态图像的处理方法、电子装置及其连接的终端装置
EP22196764.9A EP4290473A1 (en) 2022-06-06 2022-09-21 Dynamic image processing method, electronic device, and terminal device and mobile communication device connected thereto

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111120905A TWI815495B (zh) 2022-06-06 2022-06-06 動態影像之處理方法、電子裝置及其連接之終端裝置與行動通訊裝置

Publications (2)

Publication Number Publication Date
TWI815495B true TWI815495B (zh) 2023-09-11
TW202349265A TW202349265A (zh) 2023-12-16

Family

ID=83400790

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111120905A TWI815495B (zh) 2022-06-06 2022-06-06 動態影像之處理方法、電子裝置及其連接之終端裝置與行動通訊裝置

Country Status (4)

Country Link
US (1) US20230394822A1 (zh)
EP (1) EP4290473A1 (zh)
CN (1) CN117241140A (zh)
TW (1) TWI815495B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040136460A1 (en) * 2003-01-15 2004-07-15 Zhang Hongjiang Method and system for extracting key frames from video using a triangle model of motion based on perceived motion energy
TW201118803A (en) * 2009-02-24 2011-06-01 Mitsubishi Electric Corp Person-tracing apparatus and person-tracing program
CN111507290A (zh) * 2019-05-28 2020-08-07 小蚁科技(香港)有限公司 受抚者监视和看护系统
CN114286174A (zh) * 2021-12-16 2022-04-05 天翼爱音乐文化科技有限公司 一种基于目标匹配的视频剪辑方法、系统、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9516259B2 (en) * 2013-10-22 2016-12-06 Google Inc. Capturing media content in accordance with a viewer expression
CN108737729A (zh) * 2018-05-04 2018-11-02 Oppo广东移动通信有限公司 自动拍照方法和装置
CN109873952B (zh) * 2018-06-20 2021-03-23 成都市喜爱科技有限公司 一种拍摄的方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040136460A1 (en) * 2003-01-15 2004-07-15 Zhang Hongjiang Method and system for extracting key frames from video using a triangle model of motion based on perceived motion energy
TW201118803A (en) * 2009-02-24 2011-06-01 Mitsubishi Electric Corp Person-tracing apparatus and person-tracing program
CN111507290A (zh) * 2019-05-28 2020-08-07 小蚁科技(香港)有限公司 受抚者监视和看护系统
CN114286174A (zh) * 2021-12-16 2022-04-05 天翼爱音乐文化科技有限公司 一种基于目标匹配的视频剪辑方法、系统、设备及介质

Also Published As

Publication number Publication date
CN117241140A (zh) 2023-12-15
TW202349265A (zh) 2023-12-16
US20230394822A1 (en) 2023-12-07
EP4290473A1 (en) 2023-12-13

Similar Documents

Publication Publication Date Title
US10650261B2 (en) System and method for identifying re-photographed images
CN101334839B (zh) 图像处理装置及图像处理方法
US11074436B1 (en) Method and apparatus for face recognition
CN103052960B (zh) 失焦状况下的对象检测和识别
US8314854B2 (en) Apparatus and method for image recognition of facial areas in photographic images from a digital camera
KR101731771B1 (ko) 버스트 포토 캡처된 세트로부터 키퍼 이미지의 자동 선택
US8593523B2 (en) Method and apparatus for capturing facial expressions
US20170262472A1 (en) Systems and methods for recognition of faces e.g. from mobile-device-generated images of faces
KR101303877B1 (ko) 얼굴 검출과 피부 영역 검출을 적용하여 피부의 선호색변환을 수행하는 방법 및 장치
KR20090024086A (ko) 정보 처리 장치, 정보 처리 방법, 및 컴퓨터 프로그램
CN101534392A (zh) 优先对象决定装置、电子设备、方法及程序以及记录媒体
RU2635238C1 (ru) Способ, устройство и терминал для воспроизведения музыки на основе фотоальбома с фотографиями лиц
CN106331504A (zh) 拍摄方法及装置
CN105872363A (zh) 人脸对焦清晰度的调整方法及调整装置
CN106096519A (zh) 活体鉴别方法及装置
CN110612530A (zh) 用于选择脸部处理中使用的帧的方法
TW201344546A (zh) 相片資料夾之代表縮圖之自動選擇方法及自動選擇系統
CN105827979A (zh) 一种拍摄提示的方法和移动终端
WO2023138403A1 (zh) 确定触发手势的方法、装置及设备
CN108781252A (zh) 一种图像拍摄方法及装置
CN112417970A (zh) 目标对象识别方法、装置和电子系统
TWI815495B (zh) 動態影像之處理方法、電子裝置及其連接之終端裝置與行動通訊裝置
US8879805B2 (en) Automated image identification method
TWI831235B (zh) 動態影像之處理方法、電子裝置及其連接之終端裝置
CN107578006B (zh) 一种照片处理方法及移动终端