TW201810127A

TW201810127A - 避免辨識結果混淆之影像辨識方法

Info

Publication number: TW201810127A
Application number: TW105129729A
Authority: TW
Inventors: 謝少航; 陳彥呈
Original assignee: 創意引晴（開曼）控股有限公司
Priority date: 2016-09-13
Filing date: 2016-09-13
Publication date: 2018-03-16
Also published as: TWI622938B; US10275692B2; US20180075325A1

Abstract

一種避免辨識結果混淆之影像辨識方法，係於辨識平台接收用戶欲辨識的多個標的，並依據多個標的查詢預先建構的語義樹，以判斷多個標的彼此之間是否會產生辨識結果的混淆。於多個標的的辨識結果不會產生混淆時，分別取得多個標的所屬的母類別對應的母類別分類器，並使用該些母類別分類器進行辨識。並且，於多個標的的辨識結果可能產生混淆時，分別取得多個標的底層的多個子類別對應的子類別分類器，並使用該些子類別分類器進行辨識。

Description

避免辨識結果混淆之影像辨識方法

本發明涉及一種影像辨識方法，尤其涉及一種可避免辨識結果混淆的影像辨識方法。

要通過人工智慧(Artificial Intelligence, AI)自動對影像或視頻中的標的，如人臉、物件、場景等進行辨識，必須先確定要辨識的一或多個標的，並訓練對應至該些標的的分類器。如此一來，在對影像或視頻進行分析時，可藉由訓練完成的一或多個分類器自動對影像或視頻進行分析比對，並辨識出影像或視頻中是否存在該些標的。

如圖1所示，為現有技術的分類器訓練示意圖。舉例來說，若用戶要辨識的標的包含「手機」以及「螢幕」這兩個物件，則需先針對手機這個類別訓練一手機分類器1，並針對螢幕這個類別訓練一螢幕分類器2。具體地，工程師需將與手機相關的訓練素材11，例如手機螢幕、手機背面、手機殼等的相關資訊(例如圖片、影片等)輸入該手機分類器1，令該手機分類器1能夠瞭解包含哪些元素在內的物件符合手機類別的定義。

同樣地，工程師也需將與螢幕相關的訓練素材21，例如電視螢幕、電腦螢幕、手機螢幕等的相關資訊輸入該螢幕分類器2，令該螢幕分類器2能夠瞭解包含哪些元素在內的物件符合螢幕類別的定義。

然而如圖1所示，由於該手機分類器1的訓練素材11中包含了手機螢幕(也就是說手機類別下面包含了手機螢幕子類別)，而該螢幕分類器2的訓練素材21中也包含了手機螢幕(也就是說螢幕類別下面也包含了手機螢幕子類別)，因此在訓練完成之後，該手機分類器1會將包含手機螢幕在內的物件辨識為手機，而該螢幕分類器2會將包含手機螢幕在內的物件辨識為螢幕。如此一來，手機類別與螢幕類別的辨識結果就會產生混淆。

舉例來說，若用戶要在一辨識平台上尋找一視頻中有手機出現的片段，但於分析時，先由該螢幕分類器2辨識出該視頻中出現了手機螢幕的片段，並且將該手機螢幕定義為螢幕類別，則該片段將會無法被用戶所成功搜尋。如此一來，即會因為辨識結果的混淆而造成辨識失敗，進而降低自動辨識的辨識率。

本發明的主要目的，在於提供一種避免辨識結果混淆之影像辨識方法，可依據用戶欲辨識的標的自動調整與選擇實際分析時所使用的分類器，藉此避免辨識結果產生混淆。

為了達成上述的目的，本發明是於一辨識平台接收用戶欲辨識的多個標的後，依據該些標的查詢預先建構的一語義樹，以判斷該些標的彼此之間是否會產生辨識結果的混淆。於該些標的的辨識結果不會產生混淆時，分別取得該些標的所屬的母類別對應的母類別分類器，並使用該些母類別分類器進行辨識。並且，於該些標的的辨識結果可能產生混淆時，分別取得該些標的底層的多個子類別對應的子類別分類器，並使用該些子類別分類器進行辨識。

本發明對照現有技術所能達到的技術功效在於，辨識平台於接收用戶欲辨識的標的後，可先判斷該些標的彼此之間是否有辨識結果混淆的可能性，再決定要使用該些標的直接對應的母類別分類器進行辨識，或是進一步使用該些標的底層的多個子類別分類器進行辨識。如此一來，可有效避免在用戶欲辨識的多個標的的關聯性較高時，產生辨識結果混淆的情況。

茲就本發明之一較佳實施例，配合圖式，詳細說明如後。

本發明揭露了一種避免辨識結果混淆之影像辨識方法(下面將於說明書中簡稱為該方法)，該方法主要是運用於離線的一辨識系統或連接網路的一辨識平台，於下述說明中，將以該辨識平台為例，進行說明。

該辨識平台主要可對靜態影像以及動態的視頻進行分析，以辨識在影像與視頻中出現的各種標的。以創意引晴公司所開發的FITAMOS系統為例，以FITAMOS系統為核心的辨識平台，主要可於影像或視頻中辨識出人臉、圖片／商標、文字、聲音、動作、物件及場景等七大標的。

本發明的主要技術特徵在於，當該辨識平台要同時進行多個標的的辨識時，會先參考預先建構完成的一語義樹，以判斷該多個標的彼此之間是否存在辨識結果混淆的可能性。並且，再依據判斷結果決定要使用該些標的所屬的母類別的分類器直接進行辨識，或是使用該些標的底層的多個子類別的分類器進行辨識。

如圖2所示，為本發明的第一具體實施例的語義樹示意圖。圖2揭露了一語義樹3的具體實施態樣。本發明中，該語義樹3主要是依據語義學(semantics)所建構而成的樹狀語義邏輯，並且該語義樹3具有兩個以上的層級，也就是說每一個詞彙至少包括一個母類別及一個子類別。

於圖2的實施例中，在該語義樹3的根部底下，包括了「車子」、「螢幕」及「手機」三個類別。若將該車子類別視為母類別，則該車子類別的底層包括了「單車」、「摩托車」及「汽車」三個子類別，也就是說該車子類別為該單車類別、該摩托車類別及該汽車類別的聯集。

若進一步將該汽車類別視為母類別，則該汽車類別的底層還包括「跑車」、「房車」及「遊覽車」三個子類別，其中該汽車類別為該跑車類別、該房車類別與該遊覽車類別的聯集。若將該跑車類別視為母類別，該跑車類別的底層還包括「雙門跑車」與「三門跑車」兩個子類別；而若將該雙門跑車類別視為母類別，該雙門跑車類別的底層還包括「輪胎」、「車門」兩個子類別。

相同地，在圖2的實施例中，若將該螢幕類別視為母類別，則該螢幕類別的底層包括了「手機螢幕」、「電腦螢幕」、「電視螢幕」等三個子類別，而該螢幕類別即為該手機螢幕類別、該電腦螢幕類別及該電視螢幕類別的聯集。若將該手機類別視為母類別，則該手機類別的底層包括了「手機螢幕」、「手機背面」、「手機殼」等三個子類別，而該手機類別即為該手機螢幕類別、該手機背面類別及該手機殼類別的聯集。

值得一提的是，該語義樹3主要是針對辨識需求而建立的樹狀語義結構，並且於訓練分類器時，亦可直接按照該語義樹3的結構來訓練對應的多個分類器(包含母類別分類器與子類別分類器)。於實際實施時，一個母類別的底層所包含的子類別的類型與數量為何，可視實際辨識作業需求而定。例如於圖2中，該螢幕類別的底層僅包含了手機螢幕、電腦螢幕與電視螢幕三個子類別，但該些子類別的類型與數量可視實際所需而調整，並非以圖2中所示者為限。

本發明中，當該辨識平台在對一目標視頻進行辨識時，主要是先參考該語義樹3，以分析要進行辨識的多個標的是否會有辨識結果混淆的情況，以決定要以該些標的所屬的母類別對應的母類別分類器對該目標視頻進行辨識，還是要改以該些標的底層的多個子類別所分別對應的子類別分類器對該目標視頻進行辨識(容下詳述)。具體地，該些標的所屬的母類別的名稱，主要與該些標的的名稱相同。

請同時參閱圖3，為本發明的第一具體實施例的辨識流程圖。如圖3所示，首先，於該辨識平台上接收欲辨識的複數標的(步驟S10)，其中，該複數標的所屬的多個母類別(例如手機、電視、螢幕)對應的母類別分類器(例如手機分類器、電視分類器、螢幕分類器)已預先訓練完成，並且可被該辨識平台直接取得並使用。

於一較佳實施例中，該些母類別底層的多個子類別所分別對應的子類別分類器(例如手機螢幕分類器、電視螢幕分類器等)也已預先訓練完成，並可被該辨識平台取得並使用。本實施例中，該些母類別與該些子類別的上下位關係，係與該語義樹3所定義者相同。

該步驟S10後，該辨識平台接著依據該複數標的查詢該語義樹(步驟S12)，以判斷該複數標的彼此之間是否會產生辨識結果的混淆(步驟S14)。

本發明中，該辨識平台主要是於任一標的底層的任一子類別與另一標的底層的任一子類別重疊時，判斷該二標的可能會產生辨識結果的混淆。例如圖2中，手機類別底層的手機螢幕子類別，係與螢幕類別底層的手機螢幕子類別重疊，因此當用戶輸入的該複數標的中同時存在手機及螢幕時，該辨識平台會經過判斷後認定這兩個標的的辨識結果可能會產生混淆(例如將該目標視頻中出現的手機標註成螢幕)。

承上，若該辨識平台於該步驟S14中判斷該些標的不會產生辨識結果的混淆(即，該些標的底層不存在重疊的子類別)，則該辨識平台分別取得各該標的所屬的一母類別對應的一母類別分類器(步驟S16)，並且使用該些母類別分類器對該目標視頻進行辨識(步驟S18)。

舉例來說，若用戶輸入的該複數標的包括手機及汽車，則因為查詢該語義樹3後可發現手機類別與汽車類別的底層不存在重疊的子類別，因此在進行辨識時，該辨識平台會以直接對應的母類別的手機分類器與汽車分類器(即，母類別分類器)來對該目標視頻進行辨識。

反之，若該辨識平台於該步驟S14中判斷該些標的可能會產生辨識結果的混淆(即，該些標的底層存在至少一個重疊的子類別)，則該辨識平台分別取得可能產生混淆的多個標的底層的多個子類別對應的多個子類別分類器(步驟S20)，並使用該些子類別分類器對該目標視頻進行辨識。本發明中，該步驟S16中所述的該些母類別，為步驟S20中所述的該些子類別的聯集。

舉例來說，若用戶輸入的該複數標的包括手機及螢幕，則因為查詢該語義3後可發現手機類別與螢幕類別的底層存在重疊的手機螢幕子類別，因此在進行辨識時，該辨識平台會捨棄該些標的直接對應的手機分類器與螢幕分類器(即，母類別分類器)。相對地，該辨識平台會改為使用該些標的底層的多個子類別分類器，如手機螢幕分類器、手機背面分類器、手機殼分類器、電視螢幕分類器、電腦螢幕分類器等，對該目標視頻進行辨識。

值得一提的是，若用戶輸入的該複數標的中同時存在上述可能產生辨識結果混淆的標的(例如手機與螢幕)以及不會與其他標的產生辨識結果混淆的標的(例如車子)，則除了該步驟S20外，該辨識平台會進一步取得不會產生混淆的該標的所屬的母類別對應的母類別分類器(步驟S22)。並且，該辨識平台將同時使用在該步驟S20中取得的該多個子類別分類器及在該步驟S22中取得的該母類別分類器對該目標視頻進行辨識(步驟S18)。

承上所述，該步驟S20中所指的子類別與該步驟S22中所指的母類別，於該語義樹3中係屬於不同的層級。例如，於圖2所示的該語義樹3中，該車子類別、該螢幕類別及該手機類別屬於同一層級，但是因為該螢幕類別與該手機類別的辨識結果可能會出現混淆，因此在實際辨識時，該辨識平台會採用該車子類別(母類別)，以及該螢幕類別與該手機類別底層的該手機螢幕子類別、該手機背面子類別、該手機殼子類別等，對該目標視頻進行辨識。

續請參閱圖4A，為本發明的第一具體實施例的辨識結果輸出流程圖。圖4A用以說明當該辨識平台判斷該複數標的不會產生辨識結果的混淆時，如何進行辨識結果的顯示。

如圖4A所示，該辨識平台在使用了圖3的該步驟S16中取得的該些母類別分類器對該目標視頻進行了分析後，係判斷該些母類別分類器是否得到一有效辨識值(步驟S30)。具體地，當任一母類別分類器(例如車子分類器)經分析後認定該目標視頻的其中一幀出現了對應的物件(即，車子)，則該母類別分類器可得到辨識值為1(即為有效辨識值)，反之則為0(即為無效辨識值)。

該步驟S30後，若任一母類別分類器得到該有效辨識值，則該辨識平台直接輸出該母類別分類器對應的該母類別的名稱，以作為對應標的的辨識結果(步驟S32)。具體來說，若由該車子分類器辨識成功，則該辨識平台直接輸出「車子」，以做為相對物件的辨識結果。

續請參閱圖4B，為本發明的第二具體實施例的辨識結果輸出流程圖。圖4B用以說明當該辨識平台判斷該複數標的可能產生辨識結果的混淆時，如何進行辨識結果的顯示。

如圖4B所示，該辨識平台在使用了圖3的該步驟S20中取得的該些子類別分類器對該目標視頻進行了分析後，係判斷該些子類別分類器是否得到該有效辨識值(步驟S40)。並且，於任一該子類別分類器得到該有效辨識值，對該子類別分類器對應的該子類別的名稱進行轉譯，以得到涵蓋該子類別的多個母類別(步驟S42)。最後，再同時輸出該多個母類別的名稱，以作為相對物件的辨識結果(步驟S44)。

舉例來說，若該手機螢幕分類器(為子類別分類器)辨識成功，則該辨識平台會先對手機螢幕子類別進行轉譯，並得到屬於母類別的該手機類別以及該螢幕類別(即，該手機類別涵蓋了該手機螢幕子類別，而該螢幕類別同樣也涵蓋了該手機螢幕子類別)。並且，該辨識平台會同時輸出「手機」以及「螢幕」，以做為相對物件辨識結果。

參閱圖5，為本發明的第一具體實施例的影像辨識示意圖。於圖5的實施例中，該辨識平台係接收用戶輸入的「車子」、「人類」、「電腦」、「螢幕」等四個標的，並依這些標的所對應的分類器對一視頻4進行分析。

如圖5所示，該辨識平台依據上述四個標的經查詢該語義樹3後，可判斷車子並不會與人類、電腦及螢幕產生混淆，因而直接以車子所屬的母類別對應的母類別分類器進行分析，並得到該視頻4中的一第一物件41為「車子」的辨識結果。

再者，該辨識平台經查詢該語義樹3後還可判斷人類不會與車子、電腦及螢幕產生混淆，因而直接以人類所屬的母類別對應的母類別分類器進行分析，並得到該視頻4中的一第二物件42為「人類」的辨識結果。

然而，該辨識平台經查詢該語義樹3後，會發現電腦與螢幕這兩個母類別具有相同的電腦螢幕子類別，而可能會產生辨識結果的混淆。因此，該辨識平台會捨棄電腦與螢幕這兩個母類別對應的母類別分類器，而改以這兩個母類別底層的多個子類別所對應的子類別分類器，例如電腦鍵盤分類器、電腦機殼分類器、電腦螢幕分類器、手機螢幕分類器等，對該視頻4進行分析。

於圖5的實施例中，主要是由該電腦螢幕分類器分析後成功辨識該視頻4中的一第三物件43並得到該有效辨識值。然而，由於用戶希望辨識的是電腦以及螢幕這兩個標的，因此該辨識平台不會直接輸出「電腦螢幕」做為該第三物件43的辨識結果。取而代之，該辨識平台會對「電腦螢幕」進行轉譯，以得到涵蓋該電腦螢幕子類別的該電腦類別以及該螢幕類別，並且同時輸出「電腦」以及「螢幕」來作為該第三物件43的辨識結果。如此一來，該辨識平台可以在有效避免辨識混淆的情況下，輸出符合用戶期待的辨識結果。

於前述實施例中，該複數標的主要是以影像或視頻中的物件為例。然而，於其他實施例中，本發明的該方法亦可用於辨識影像或視頻中的場景，不加以限定。

參閱圖6A，為物件辨識結果混淆的第一示範例。由於手機、平板電腦、電視、筆記型電腦及螢幕等母類別都具有共有的螢幕特徵，因而會造成辨識結果的混淆。因此，若用戶輸入的複數標的中同時包含上述母類別，則該辨識平台將會以手機螢幕、平板螢幕、電視螢幕、筆電螢幕等子類別對應的子類器分類器對視頻進行分析，以避免因為辨識混淆而誤將手機、平板電腦、電視、筆記型電腦等物件辨識為螢幕。

續請參閱圖6B，為物件辨識結果混淆的第二示範例。由於筆記型電腦、桌上型電腦及鍵盤等母類別都具有共有的鍵盤特徵，因而會造成辨識結果的混淆。因此，若用戶輸入的複數標的中同時包含上述母類別，則該辨識平台將會以筆電鍵盤、桌機鍵盤等子類別對應的子類別分類器對視頻進行分析，以避免因為辨識混淆而誤將筆記型電腦、桌上型電腦等物件辨識為鍵盤。

續請參閱圖6C，為物件辨識結果混淆的第三示範例。由於汽車、單車及輪胎等母類別都具有共有的輪胎特徵，因而會造成辨識結果的混淆。因此，若用戶輸入的複數標的中同時包含上述母類別，則該辨識平台將會以汽車輪胎、單車輪胎等子類別對應的子類別分類器對視頻進行分析，以避免因為辨識混淆而誤將汽車、單車等物件辨識為輪胎。

續請參閱圖6D，為場景辨識結果混淆的第一示範例。由於餐廳、酒吧及桌椅等母類別都具有共有的桌椅特徵，因而會造成辨識結果的混淆。因此，若用戶輸入的複數標的中同時包含上述母類別，則該辨識平台將會以餐廳桌椅配置、酒吧桌椅配置等子類別對應的子類別分類器對視頻進行分析，以避免因為辨識混淆而誤將餐廳、酒吧等場景辨識為桌椅。

綜上所述，通過本發明的該方法，可以有效提高影像與視頻的辨識率，避免辨識結果的混淆，同時符合用戶所需的辨識要求。

以上所述僅為本發明之較佳具體實例，非因此即侷限本發明之專利範圍，故舉凡運用本發明內容所為之等效變化，均同理皆包含於本發明之範圍內，合予陳明。

1‧‧‧手機分類器

11‧‧‧訓練素材

2‧‧‧螢幕分類器

21‧‧‧訓練素材

3‧‧‧語義樹

4‧‧‧視頻

41‧‧‧第一物件

42‧‧‧第二物件

43‧‧‧第三物件

S10~S22‧‧‧辨識步驟

S30~S32‧‧‧輸出步驟

S40~S44‧‧‧輸出步驟

圖1為現有技術的分類器訓練示意圖。

圖2為本發明的第一具體實施例的語義樹示意圖。

圖3為本發明的第一具體實施例的辨識流程圖。

圖4A為本發明的第一具體實施例的辨識結果輸出流程圖。

圖4B為本發明的第二具體實施例的辨識結果輸出流程圖。

圖5為本發明的第一具體實施例的影像辨識示意圖。

圖6A為物件辨識結果混淆的第一示範例。

圖6B為物件辨識結果混淆的第二示範例。

圖6C為物件辨識結果混淆的第三示範例。

圖6D為場景辨識結果混淆的第一示例。

Claims

一種避免辨識結果混淆之影像辨識方法，運用於一辨識平台，包括： a)於該辨識平台接收欲辨識的複數標的； b)提供一語義樹，依據該複數標的查詢該語義樹以判斷該複數標的是否會產生辨識結果的混淆； c)於該複數標的不會產生辨識結果的混淆時，分別取得各該標的所屬的一母類別對應的一母類別分類器； c1)步驟c後，使用該些母類別分類器對一目標視頻進行辨識； d)於該複數標的可能產生辨識結果的混淆時，分別取得可能產生混淆的多個標的底層的多個子類別對應的多個子類別分類器，其中該些母類別分別為該些子類別的聯集；及 d1)步驟d後，使用該多個子類別分類器對該目標視頻進行辨識。
如請求項1所述的避免辨識結果混淆之影像辨識方法，其中該步驟b是於任一該標的底層的任一子類別與另一該標的底層的任一子類別重疊時，判斷該二標的可能產生辨識結果的混淆。
如請求項2所述的避免辨識結果混淆之影像辨識方法，其中還包括：步驟d0)於該複數標的可能產生辨識結果的混淆時，取得該複數標的中不會產生混淆的一個該標的所屬的母類別對應的母類別分類器；並且該步驟d1中，同時使用該母類別分類器及該多個子類別分類器對該目標視頻進行辨識。
如請求項2所述的避免辨識結果混淆之影像辨識方法，其中更包括下列步驟： e)步驟c1後，判斷該些母類別分類器的其中之一是否得到一有效辨識值；及 e1)若任一該母類別分類器得到該有效辨識值，輸出對應的該母類別的名稱作為辨識結果。
如請求項3所述的避免辨識結果混淆之影像辨識方法，其中更包括下列步驟： f)步驟d1後，判斷該多個子類別分類器的其中之一是否得到一有效辨識值； f1)若任一該子類別分類器得到該有效辨識值，對該子類別的名稱進行轉譯以得到涵蓋該子類別的多個母類別；及 f2)同時輸出該多個母類別的名稱作為辨識結果。
如請求項1-5中任一項所述的避免辨識結果混淆之影像辨識方法，其中該複數標的為物件或場景。
如請求項6所述的避免辨識結果混淆之影像辨識方法，其中該些母類別為手機、平板電腦、電視、筆記型電腦與螢幕，該些子類別為手機螢幕、平板螢幕、電視螢幕與筆電螢幕。
如請求項6所述的避免辨識結果混淆之影像辨識方法，其中該些母類別為筆記型電腦、桌上型電腦與鍵盤，該些子類別為筆電鍵盤與桌機鍵盤。
如請求項6所述的避免辨識結果混淆之影像辨識方法，其中該些母類別為汽車、單車與輪胎，該些子類別為汽車輪胎與單車輪胎。
如請求項6所述的避免辨識結果混淆之影像辨識方法，其中該些母類別為餐廳、酒吧與桌椅，該些子類別為餐廳桌椅配置與酒吧桌椅配置。