TW202236157A - 辨識方法 - Google Patents
辨識方法 Download PDFInfo
- Publication number
- TW202236157A TW202236157A TW110108574A TW110108574A TW202236157A TW 202236157 A TW202236157 A TW 202236157A TW 110108574 A TW110108574 A TW 110108574A TW 110108574 A TW110108574 A TW 110108574A TW 202236157 A TW202236157 A TW 202236157A
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- person
- palm
- processor
- identification method
- Prior art date
Links
Images
Landscapes
- Collating Specific Patterns (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Length Measuring Devices By Optical Means (AREA)
Abstract
一種辨識方法,包括:藉由攝影機拍攝第一影像;從第一影像中辨識第一人員影像;辨識第一人員影像的至少一手掌影像;依據至少一手掌影像對應的第一位移距離判斷第一人員影像是否對應目標人員;在第一人員影像對應目標人員時,依據第一人員影像控制攝影機或操作處理器。
Description
本發明是有關於一種辨識技術,特別是關於一種影像的辨識方法。
在進行視訊會議時,若會議參與者包含瘖啞人士,則可能需要藉由手語進行溝通。然而,手語使用者可能位於視訊影像的邊緣或是手語使用者的距離較遠而導致影像太小。在上述狀況下,會議參與者可能無法清楚辨識手語使用者的影像。因此,要如何發展能夠克服上述問題之相關技術為本領域重要之課題。
本發明實施例包含一種辨識方法,包括:藉由攝影機拍攝第一影像;從第一影像中辨識第一人員影像;辨識第一人員影像的至少一手掌影像;依據至少一手掌影像對應的第一位移距離判斷第一人員影像是否對應目標人員;在第一人員影像對應目標人員時,依據第一人員影像控制攝影機或操作處理器。
100A:系統
P1~P3:人員
100B、300、400、409:影像
151:攝影機
152:處理器
153:顯示器
110、120、130、410:人員影像
X1~X5:位移距離
111、112:手掌影像
113、114:手指影像
SW:寬度
101:區域
200、500:辨識方法
S21~S28、S51:操作
第1A圖為根據本案之一實施例所繪示之系統的示意圖。
第1B圖為根據本案之一實施例所繪示之影像的示意圖。
第2圖為根據本案之一實施例所繪示之辨識方法的流程圖。
第3圖為根據本案之一實施例所繪示之影像的示意圖。
第4圖為根據本案之一實施例所繪示之影像的示意圖。
第5圖為根據本案之一實施例所繪示之辨識方法的流程圖。
於本文中,當一元件被稱為「連接」或「耦接」時,可指「電性連接」或「電性耦接」。「連接」或「耦接」亦可用以表示二或多個元件間相互搭配操作或互動。此外,雖然本文中使用「第一」、「第二」、…等用語描述不同元件,該用語僅是用以區別以相同技術用語描述的元件或操作。除非上下文清楚指明,否則該用語並非特別指稱或暗示次序或順位,亦非用以限定本發明。
除非另有定義,本文使用的所有術語(包括技術和科學術語)具有與本發明所屬領域的普通技術人員通常理解的相同的含義。將進一步理解的是,諸如在通常使用的字典中定義的那些術語應當被解釋為具有與它們在相關技術和本發明的上下文中的含義一致的含義,並且將不被解釋為理想化的或過度正式的意義,除非本文中明確地這樣定義。
這裡使用的術語僅僅是為了描述特定實施例的目的,而不是限制性的。如本文所使用的,除非內容清楚地指示,否則單數形式「一」、「一個」和「該」旨在包括複數形式,包括「至少一個」。「或」表示「及/或」。如本文所使用的,術語「及/或」包括一個或多個相關所列項目的任何和所有組合。還應當理解,當在本說明書中使用時,術語「包括」及/或「包含」指定所述特徵、區域、整體、步驟、操作、元件的存在及/或部件,但不排除一個或多個其它特徵、區域整體、步驟、操作、元件、部件及/或其組合的存在或添加。
以下將以圖式揭露本案之複數個實施方式,為明確說明起見,許多實務上的細節將在以下敘述中一併說明。然而,應瞭解到,這些實務上的細節不應用以限制本案。也就是說,在本揭示內容部分實施方式中,這些實務上的細節是非必要的。此外,為簡化圖式起見,一些習知慣用的結構與元件在圖式中將以簡單示意的方式繪示之。
第1A圖為根據本案之一實施例所繪示之系統
100A的示意圖。在一些實施例中,系統100A用以從多個人員,例如第1A圖所示之人員P1~P3中辨識出特定的目標人員。
如第1A圖所示,系統100A包含攝影機151、處理器152及顯示器153。在一些實施例中,攝影機151用以拍攝多個人員,例如人員P1~P3,以產生對應的影像。處理器152用以控制攝影機151或用以對攝影機151拍攝的影像進行處理。顯示器153用以顯示攝影機151拍攝的影像及/或用以顯示經處理器152處理過後的影像。舉例來說,顯示器153用以顯示如第1B圖、第3圖及第4圖所述之影像100B、300及400。在不同的實施例中,攝影機151、處理器152及顯示器153可以透過有線或無線的方式彼此傳輸影像資料。
第1B圖為根據本案之一實施例所繪示之影像100B的示意圖。在一些實施例中,影像100B係藉由攝影機151拍攝人員P1~P3而產生的影像。
如第1B圖所示,影像100B包含人員影像110、120及130。人員影像110、120及130分別對應人員P1、P2及P3。在一些實施例中,處理器152從影像100B中辨識出人員影像110、120及130,例如藉由深度學習神經網路進行辨識。
如第1B圖所示,在人員P1移動時會產生位移,人員影像110在影像100B中會產生對應的位移距離X5。在一些實施例中,處理器152依據位移距離X5判斷是否
進行進一步的辨識。
如第1B圖所示,人員影像110包含手掌影像111、112以及手指影像113、114。手掌影像111及112分別對應人員P1的兩隻手,且手指影像113及114分別對應人員P1的兩隻手的手指。在一些實施例中,處理器152從人員影像110中辨識出手掌影像111、112以及手指影像113、114。
如第1B圖所示,人員影像110的肩膀影像的寬度為寬度SW。在一些實施例中,處理器152依據寬度SW在影像100B中框出區域101,並且在區域101中辨識手掌影像111、112以及手指影像113、114。在第1B圖所示之實施例中,從肩膀影像往兩側各延伸出0.5個寬度SW的區域被設為區域101,但本發明實施例不限於此。在不同的實施例中,可以用寬度SW的不同比例框出不同的區域,或以人員影像110的其他特徵為基準框出不同的區域以進行辨識。
在一些實施例中,在人員P1移動手掌及手指時,手掌影像111、112及手指影像113、114對應移動而產生對應的位移距離。如第1B圖所示,位移距離X1及X2分別對應手掌影像111及112的位移距離,且位移距離X3及X4分別對應手指影像113及114的位移距離。
在一些實施例中,處理器152依據位移距離X1~X4判斷人員影像110是否對應目標人員,但本發明實施例不限於此。在不同的實施例中,處理器152依據位
移距離X1~X4之每一者的不同組合判斷人員影像110是否對應目標人員,舉例來說,處理器152可以依據對應手掌位移距離的位移距離X1及X2判斷人員影像110是否對應目標人員。
在一些實施例中,處理器152將位移X1~X4及對應的預設位移進行比較以進行判斷。具體方式將參照第2圖所示之實施例進行以下說明。
第2圖為根據本案之一實施例所繪示之辨識方法200的流程圖。在一些實施例中,辨識方法200係應用於第1A圖所示之系統100A及第1B圖所示之顯示影像100B,但本發明實施例不限於此。在不同的實施例中,辨識方法200也可以應用其他的影像。為了說明之目的,以下將以系統100A的部件以及影像100B舉例說明辨識方法200的相關操作。
請參照第2圖,辨識方法200包括操作S21~S28。在不同的實施例中,本發明實施例提供的顯示方法包括操作S21~S28中的一部分或其組合。
在操作S21,處理器152開始進行操作。
在操作S22,攝影機151對人員P1~P3進行偵測,並處理器152在影像100B中辨識出多個人員影像110、120及130。
在操作S23,處理器152依據人員影像110在影像100B中的位移距離X5判斷是否進行進一步的辨識,例如辨識手掌影像111及112。在第2圖所示之實施例中,
在操作S23,處理器152比較位移距離X5及預設距離P5。若位移距離X5大於或等於預設距離P5,則回到操作S22重新進行人員影像的辨識。若位移距離X5小於預設距離P5,則執行操作S24以進行進一步的辨識。
在一些實施例中,處理器152在人員停止移動後進行手掌的偵測。在人員停止移動時的位移距離相較於人員還在移動時的位移距離較小。藉由操作S23可以判斷人員是否還在移動,並在人員停止移動時再進行進一步的辨識。
在操作S24,處理器152依據人員影像110的肩膀影像的寬度SW在人員影像110的周遭框出區域101。
在操作S25,處理器152在區域101中辨識手掌影像111及112。
在其他的實施例中,處理器152在操作S23後不執行操作S24,並直接在影像100B中辨識手掌影像111及112。
在操作S26,處理器152判斷手掌影像111及112是否位於區域101中。若手掌影像111及112中的至少一者不位於區域101中,則回到操作S22重新進行人員影像的辨識。若手掌影像111及112皆位於區域101中,則執行操作S27。在一些實施例中,在操作S26,處理器152判斷區域101中是否有兩個手掌影像。
在其他的實施例中,在操作S26,處理器152也可以在手掌影像111及112中的一者不位於區域101中
的情況下執行操作S27,處理器152依據手掌影像111及112的各種操作方式皆在本案思及範圍內。
在操作S27,處理器152對位移距離X1~X4的至少一者進行比較。在一些實施例中,在操作S27,處理器152在區域101中辨識手指影像113及114,並判斷對應的位移距離X3及X4。在第2圖所示之實施例中,在操作S27,處理器152分別比較位移距離X1~X4及對應的預設距離P1~P4。若位移距離X1~X4中的一者小於或等於預設距離P1~P4的對應一者,則回到操作S22重新進行人員影像的辨識。若位移距離X1~X4分別大於預設距離P1~P4,則執行操作S28。
在不同的實施例中,在操作S27可以在比較位移距離X1~X4的一部份及對應的預設距離P1~P4的一部份之後執行操作S28。舉例來說,處理器152可以比較位移距離X1及預設距離P1,並比較位移距離X2及預設距離P2,且在位移距離X1及X2分別大於預設距離P1及P2的情況下執行操作S28。在操作S27中,判斷回到操作S22或是執行操作S28的各種條件皆在本案思及範圍內。
在操作S28,處理器152判斷人員影像110對應目標人員。換言之,在操作S27~S28,處理器152依據位移距離X1~X4的至少一者判斷人員影像110是否對應目標人員。
在一些實施例中,在操作S28後,處理器152及攝影機151的至少一者依據影像110進行進一步的操作。
具體方式將參照第3圖及第4圖所示之實施例進行以下說明。
第3圖為根據本案之一實施例所繪示之影像300的示意圖。請參照第2圖及第3圖,以下將以影像300進一步舉例說明攝影機151在操作S28之後的操作。
在操作S28,處理器152判斷人員影像110對應目標人員。對應的,在操作S28之後,處理器152控制攝影機151,例如移動及/或旋轉攝影機151,使得攝影機151對準人員影像110所對應的人員P1。如第3圖所示,影像300係攝影機151對準人員P1後產生的影像。人員影像110位於影像300的中央區域。
在一些實施例中,使用者在影像300中可以更加清楚的看到人員P1的手部動作。
第4圖為根據本案之一實施例所繪示之影像400的示意圖。請參照第2圖及第4圖,以下將以影像400進一步舉例說明處理器152在操作S28之後的操作。
在操作S28,處理器152判斷人員影像110對應目標人員。對應的,在操作S28之後,處理器152依據人員影像110產生影像400。如第3圖所示,影像300包含影像409。影像409包含人員影像410。人員影像410係放大後的人員影像110。
在一些實施例中,處理器152將人員影像110放大以產生影像409,並將影像409及影像100B合併以產生影像400。在一些實施例中,處理器152以子母畫面
(picture in picture,PIP)之技術合併影像409及影像100B。
在一些實施例中,使用者在影像400中可以更加清楚的看到人員P1的手部動作。
第3圖及第4圖所示之實施例說明了使人員P1的手部動作更加容易辨識的兩種影像,但本發明實施例不限於此。在不同的實施例中,第1A圖所示之系統100也可以產生使人員P1的手部動作更加容易辨識的其他影像。
在一些先前的作法中,在進行視訊會議時,處理器透過聲音追蹤的技術將攝影機的鏡頭對發言者進行追蹤,使得發言者的影像可以被清楚辨識或處於攝影機所產生的畫面中央。然而,藉由聲音追蹤技術之作法無法追蹤無法發出聲音的瘖啞人士,亦無法追蹤使用手語傳達資訊給瘖啞人士的手語使用者。對應的,其他會議參與者可能無法從攝影機產生的影像中清楚辨識瘖啞人士或手語使用者的手部動作。在其他的先前作法中,處理器藉由機器學習進行運算以進行手語辨識,例如Google人工智慧的手語辨識技術。此作法需要儲存大量的手部圖像,並且需要功能強大的處理器(例如中央處理器(CPU))進行運算才能達到即時的手語辨識。
相較於上述作法,在本發明實施例中,透過辨識方法200的操作,處理器152能夠在會議參與者,例如人員P1~P3中辨識目標人員,其中目標人員可以是使用手語的瘖啞人士或是希望藉由手語與瘖啞人士進行溝通的手語使
用者,並且產生更容易辨識目標人員手部動作的影像,例如影像300及/或400。辨識方法200的操作對於處理器以及記憶體之消耗需求較小。如此一來,其他會議參與者能夠在不消耗大量處理器之運算資源的情況下,透過影像300及/或400更清楚的識別瘖啞人士及/或手語使用者的手部動作。
第5圖為根據本案之一實施例所繪示之辨識方法500的流程圖。辨識方法500為第2圖所示之辨識方法200的一種變化例,因此相同之處不再重複說明。
如第5圖所示,辨識方法500包含操作S21~S28及S51。操作S21~S28的細節在以上第2圖相關之實施例敘述,故於此不再贅述。
在操作S51,攝影機151持續偵測人員P1,且處理器152持續對位移距離X1~X4的至少一者進行比較。在第2圖所示之實施例中,在操作S27,處理器152分別比較位移距離X1~X4及對應的預設距離P1~P4。若位移距離X1~X4中的一者小於或等於預設距離P1~P4的對應一者,則回到操作S22重新進行人員影像的辨識。若位移距離X1~X4分別大於預設距離P1~P4,則執行操作S28。
換言之,在操作S28及S51,處理器152持續依據位移距離X1~X4判斷人員P1是否對應目標人員,在人員P1不滿足目標人員的條件(例如X1小於P1)時,系統100回到操作S22重新進行人員影像的辨識。
綜上所述,在本發明實施例中,藉由辨識方法200及對應影像300、400之操作,系統100A可以產生更容易辨識目標人員手部動作的影像300及/或400。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
200:辨識方法
S21~S28:操作
Claims (10)
- 一種辨識方法,包括:藉由一攝影機拍攝一第一影像;從該第一影像中辨識一第一人員影像;辨識該第一人員影像的至少一手掌影像;依據該至少一手掌影像對應的一第一位移距離判斷該第一人員影像是否對應一目標人員;以及在該第一人員影像對應該目標人員時,依據該第一人員影像控制該攝影機或操作一處理器。
- 如請求項1所述之辨識方法,其中判斷該第一人員影像是否對應該目標人員包含:比較該第一位移距離及一第一預設距離;以及在該第一位移距離大於該第一預設距離時,判斷該第一人員影像對應該目標人員。
- 如請求項2所述之辨識方法,其中判斷該第一人員影像是否對應該目標人員更包含:比較該至少一手掌影像對應的一第二位移距離及一第二預設距離;以及在該第一位移距離及該第二位移距離分別大於該第一預設距離及該第二預設距離時判斷該第一人員影像對應該目標人員,其中該第一位移距離及該第二位移距離分別對應該至少 一手掌影像的一第一手掌影像及一第二手掌影像。
- 如請求項2所述之辨識方法,更包含:辨識該第一人員影像的至少一手指影像;比較該至少一手指影像對應的一第二位移距離及一第二預設距離;以及在該第二位移距離大於該第二預設距離時判斷該第一人員影像對應該目標人員。
- 如請求項1所述之辨識方法,其中辨識該至少一手掌影像包含:依據該第一人員影像,在該第一影像中框出一第一區域;以及在該第一區域中辨識該至少一手掌影像。
- 如請求項5所述之辨識方法,其中框出該第一區域包含:依據該第一人員影像中的一肩膀影像的一寬度在該第一人員影像周遭框出該第一區域。
- 如請求項5所述之辨識方法,更包含:在該第一區域中的該至少一手掌影像的一手掌影像數量小於二時,判斷該第一人員影像不對應該目標人員。
- 如請求項1所述之辨識方法,更包含:辨識該第一人員影像在該第一影像中的一第二位移距離;比較該第二位移距離及一第二預設距離;以及在該第二位移距離大於或等於該第二預設距離時,判斷該第一人員影像不對應該目標人員。
- 如請求項1所述之辨識方法,更包含:持續比較該第一位移距離及一第一預設距離;以及在該第一位移距離小於或等於該第一預設距離時,判斷該第一人員影像不對應該目標人員。
- 如請求項1所述之辨識方法,其中控制該攝影機包含:將該攝影機對準該目標人員,以及操作該處理器包含:藉由該處理器,依據該第一人員影像產生一第二影像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110108574A TW202236157A (zh) | 2021-03-10 | 2021-03-10 | 辨識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110108574A TW202236157A (zh) | 2021-03-10 | 2021-03-10 | 辨識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202236157A true TW202236157A (zh) | 2022-09-16 |
Family
ID=84957363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110108574A TW202236157A (zh) | 2021-03-10 | 2021-03-10 | 辨識方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TW202236157A (zh) |
-
2021
- 2021-03-10 TW TW110108574A patent/TW202236157A/zh unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676369B2 (en) | Context based target framing in a teleconferencing environment | |
US10083710B2 (en) | Voice control system, voice control method, and computer readable medium | |
US11074430B2 (en) | Directional assistance for centering a face in a camera field of view | |
US20120259638A1 (en) | Apparatus and method for determining relevance of input speech | |
Rakhmatulin et al. | Deep neural networks for low-cost eye tracking | |
JP2011166305A (ja) | 画像処理装置および撮像装置 | |
CN105042789B (zh) | 一种智能空调的控制方法及系统 | |
WO2021179719A1 (zh) | 人脸活体检测方法、装置、介质及电子设备 | |
JP7279646B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN113723327A (zh) | 一种基于深度学习的实时中文手语识别交互系统 | |
US20200125398A1 (en) | Information processing apparatus, method for processing information, and program | |
WO2020244160A1 (zh) | 终端设备控制方法、装置、计算机设备及可读存储介质 | |
JP2003196017A (ja) | データ入力方法及び同装置等 | |
CN109328355A (zh) | 用于智能群体肖像的方法和系统 | |
US11423550B2 (en) | Presenter-tracker management in a videoconferencing environment | |
CN112700568B (zh) | 一种身份认证的方法、设备及计算机可读存储介质 | |
TW202236157A (zh) | 辨識方法 | |
JP2019133437A (ja) | 情報処理装置、システム、情報処理装置の制御方法、及び、プログラム | |
Abdel-Kader et al. | An efficient eye detection and tracking system based on particle swarm optimization and adaptive block-matching search algorithm | |
JP2021033573A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US11985417B2 (en) | Matching active speaker pose between two cameras | |
JP7105380B2 (ja) | 情報処理システム及び方法 | |
Al-Hames et al. | Automatic multi-modal meeting camera selection for video-conferences and meeting browsers | |
WO2021248348A1 (en) | Tracker activation and deactivation in a videoconferencing system | |
Zhao et al. | Multimodal information perception based active human-computer interaction |