TW201603567A - 即時視訊串流中字元辨識技術 - Google Patents

即時視訊串流中字元辨識技術 Download PDF

Info

Publication number
TW201603567A
TW201603567A TW104118779A TW104118779A TW201603567A TW 201603567 A TW201603567 A TW 201603567A TW 104118779 A TW104118779 A TW 104118779A TW 104118779 A TW104118779 A TW 104118779A TW 201603567 A TW201603567 A TW 201603567A
Authority
TW
Taiwan
Prior art keywords
character data
video
video stream
appearance
image
Prior art date
Application number
TW104118779A
Other languages
English (en)
Inventor
契 索
肯特E 比吉斯
傑佛瑞C 史蒂芬
Original Assignee
惠普發展公司有限責任合夥企業
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 惠普發展公司有限責任合夥企業 filed Critical 惠普發展公司有限責任合夥企業
Publication of TW201603567A publication Critical patent/TW201603567A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本範例係有關檢測字元資料。至少一外型與有關該至少一外型之特性儲存於一資料庫中。取得一視訊串流時,其可決定該視訊串流是否包含顯示具有該至少一外型之特性的一外型之視訊內容。用以響應決定該視訊串流包含顯示具有該至少一外型之特性的一外型之視訊內容,該外型中之字元資料可受檢測。

Description

即時視訊串流中字元辨識技術
本發明係有關於即時視訊串流中字元辨識技術。
發明背景
遠端合作系統正努力傳達本地與遠端會議參與者在相同房間的一種體驗。特別是,一看透螢幕式合作系統建立該等使用者似乎僅由一片玻璃來分開的錯覺而事實上其在不同位置。該類系統提供該等使用者可看見彼此的身體語言、手勢、眼神接觸與凝視之一有效的合作工具。
依據本發明之一實施例,係特地提出一種由一計算系統用於檢測字元資料執行之方法,該方法包含下列步驟:將至少一外型與有關該至少一外型之特性儲存於資料庫中;取得一視訊串流;決定該視訊串流是否包含顯示具有該至少一外型之特性的一外型之視訊內容;以及用以響應決定該視訊串流包含顯示具有該至少一外型之特性的一外型之視訊內容,來檢測該外型中之字元資料。
50‧‧‧網路
100‧‧‧環境
110‧‧‧視訊處理系統
121‧‧‧視訊鏡射引擎
122‧‧‧檢測引擎
123‧‧‧修正引擎
124‧‧‧字元增強引擎
125‧‧‧輸出產生引擎
129‧‧‧資料儲存器
130‧‧‧伺服器計算裝置
140、140A至140N‧‧‧客戶端計算裝置
210‧‧‧機器可讀儲存媒體
211‧‧‧處理器
221‧‧‧視訊鏡射指令
222‧‧‧檢測指令
223‧‧‧修正指令
224‧‧‧字元增強指令
225‧‧‧輸出產生指令
300、400‧‧‧方法
310、321、322、323、324、330、 410、421、422、423、424、425、426、427、430‧‧‧方塊
500‧‧‧圖片
600‧‧‧系統設計
610A‧‧‧第一使用者
610B‧‧‧第二使用者
620A‧‧‧第一看透螢幕
620B‧‧‧第二看透螢幕
630A‧‧‧第一投影機
630B‧‧‧第二投影機
635A‧‧‧第一視訊擷取裝置、第一鏡頭
635B‧‧‧第二視訊擷取裝置、第二鏡頭
640‧‧‧視訊影像
641‧‧‧鏡子樣板
642、742‧‧‧修正視訊影像
643‧‧‧輸出視訊串流
650‧‧‧共享內容
710‧‧‧使用者
740‧‧‧擷取視訊
741‧‧‧鏡射樣板
750‧‧‧紙張
760‧‧‧指定部段
800‧‧‧實施態樣
810‧‧‧一個人
830‧‧‧深度鏡頭
850‧‧‧第一深度範圍
851‧‧‧第二深度範圍
852‧‧‧第三深度範圍
下列詳細說明參照該等圖式,其中:圖1為一各種不同範例可作為一視訊處理系統來予以執行之示範環境。
圖2為一描繪包含一處理器針對視訊處理執行之指令的一示範機器可讀媒體之方塊圖。
圖3為一描繪基於已知外型來檢測一視訊串流中之字元資料的一示範方法之流程圖。
圖4為一描繪一看透螢幕式合作系統中使用之視訊處理的一示範方法之流程圖。
圖5為一描繪兩個使用者如何使用一看透螢幕式合作系統來通訊的示範圖片。
圖6為一描繪一看透螢幕式合作系統之一示範系統設計的圖形。
圖7為一描繪檢測一視訊串流中之字元資料的一示範實施態樣之圖形。
圖8為一描繪使用一深度鏡頭來控制一鏡子影像效應之一示範實施態樣的圖形。
較佳實施例之詳細說明
下列詳細說明係參照該等附圖,可能情況下,該等相同參考數字用於該等圖式與下列說明來參照相同或類似部分。然而,可明顯了解該等圖式只是為了舉例解說與說明用,而不意欲作為本發明之限制的一定義。雖然本文 件中說明了若干範例,但其可有修改、調適、與其他實施態樣。因此,下列詳細說明並不限制該等揭示範例。而是,該等揭示範例之適當範疇可由該等後附請求項來加以定義。
遠端合作系統正努力傳達本地與遠端會議參與者在相同房間的一種體驗。特別是,一看透螢幕式合作系統建立該等使用者似乎僅由一片玻璃來分開的錯覺而事實上其在不同位置。該類系統可提供一種有效的合作工具,其中該等使用者可看見彼此的身體語言、手勢、眼神接觸、凝視、以及其如何與該看透螢幕上顯示之共享內容互動。
某些實施態樣中,該看透螢幕式合作系統可包括透過一第一看透螢幕來擷取一第一使用者之一視域(以及該第一使用者附近的空間)的一第一視訊擷取裝置(例如,視訊鏡頭)。如本文使用之“看透螢幕”可包含一透明顯示螢幕,其中一使用者可透過該螢幕來檢視、上載、或以其他方式與內容(例如,影像、文字、視訊、等等)互動、以及該使用者可在該螢幕上書寫。一示範看透螢幕顯示於圖5。該第一視訊擷取裝置可安裝在該第一螢幕後方,透過該第一螢幕攝影。該第一使用者可呈現在該螢幕之另一側,透過該第一螢幕來面對該第一鏡頭。一第一投影機可安裝在與該第一鏡頭同側,來於該第一螢幕上投射共享內容。
該系統之一類似安排可針對一第二使用者設定在一遠端位置。例如,一第二視訊擷取裝置可透過一第二 看透螢幕來擷取該第二使用者之一視域(以及該第二使用者附近的空間)。該第二視訊擷取裝置可安裝在該第二螢幕後方,透過該第二螢幕攝影。該第二使用者可呈現在該螢幕之另一側,透過該第二螢幕來面對該第二鏡頭。該內容可由該第一使用者共享以及與其互動,而該第一使用者之擷取視域可由一第二投影機來投射至該第二看透螢幕。同樣地,該內容可由該第二使用者共享以及與其互動,而該第二使用者之擷取視域可由該第一投影機來投射至該第一看透螢幕。從與該本地使用者一致的一觀點,該看透螢幕式系統之特別安排可允許擷取該遠端使用者之一視訊影像。如上所述之該看透螢幕式合作系統的一示範系統設計繪示於圖6。
如本文使用之“共享內容”可包含可由一使用者經由他/她的看透螢幕來共享之任何內容(例如,影像、文字、視訊、等等)。該共享內容之後可投射至及/或顯示於另一使用者的看透螢幕。此方式中,該內容由該使用者建立、上載、互動、及/或調處時,該本地與遠端使用者可在其個別的看透螢幕上檢視相同內容。例如,該第一使用者可在該第一看透螢幕上畫一流程圖。該使用者亦可在該第一螢幕上上載及/或共享內容、或可選擇在一上載影像之頂部上畫圖。所有該等內容可經由該第二使用者可檢視該共享內容而投射至及/或顯示於該第二看透螢幕上。該第二使用者可進一步調處該共享內容、而該共享內容之任何改變與增加可同時顯示在該第一看透螢幕上。
應注意該等第一與第二使用者間之任何共享內容可以相同走向來顯示,使得該螢幕上之圖式(或任何其他內容)對兩使用者而言顯示為正確。假設兩使用者實體上位於相同房間並由一透明玻璃來分開,則一使用者可在該透明玻璃的他/她側上寫下此字“邏輯”。該字在玻璃另一側上會顯示為鏡顛倒,使得另一側之使用者很難讀取或了解。因此,如本文所述之該看透螢幕式合作系統中,任何共享內容可以兩使用者能夠以其正確走向、而非以該字之一鏡顛倒樣板來看此字“邏輯”的該類方式來顯示在該螢幕上。
因為對兩使用者而言,該共享內容以相同走向來顯示,故該遠端使用者之擷取視訊影像可水平翻轉(或鏡顛倒),使得該共享內容與該遠端使用者之擷取視訊影像可被適當組合與顯示在該本地使用者之看透螢幕上。例如,該第一使用者之一視訊影像可為鏡顛倒且顯示在該第二看透螢幕上。同樣地,該第二使用者之一視訊影像可為鏡顛倒且顯示在該第一看透螢幕上。然而,如同在一鏡子中看文字,該鏡射視訊影像中顯示之文字會顯示為向後書寫。例如,該第一使用者穿著有一文字之T恤時,若從該第二使用者的觀點來看,該文字為向後顯示。
本文揭示之範例藉由辨識及/或檢測一視訊串流中之字元資料(例如,字母、數字、符號、等等)來說明此不佳的鏡子影像效應。該字元資料可基於各種不同方式來辨識及/或檢測。例如,該字元資料可藉由辨識已知來包括字 元資料之一外型來檢測。於一範例中,T恤通常具有某些文字書寫其上。該鏡子影像效應可藉由於一軸線(例如,該檢測部分之中央軸)附近水平翻轉代表該檢測字元資料之視訊串流的一部分來修正。該檢測字元資料之解析度及/或精確度可得以增強,而該增強的字元資料可顯示在該螢幕上。此外,該檢測部分之翻轉造成的任何透視失真可被修正來傳達一更加真實的體驗。
圖1為一各種不同範例可作為一視訊處理系統110來予以執行之示範環境100。環境100可包括各種不同的構件,包括伺服器計算裝置130與客戶端計算裝置140(繪示為140A、140B、...、140N)。每一客戶端計算裝置140A、140B、...、140N可將請求傳達至伺服器計算裝置130及/或從其接收回應。伺服器計算裝置130可從客戶端計算裝置140接收及/或回應請求。客戶端計算裝置140可包括提供一使用者可透過來與一軟體應用程式互動之一使用者介面的任何類型之計算裝置。例如,客戶端計算裝置140可包括一膝上型計算裝置、一桌上型計算裝置、一單體全備計算裝置、一平板計算裝置、一行動電話、一電子書閱讀器、一網路賦能設施,諸如一“智慧型”電視、及/或適合顯示一使用者介面以及處理使用者與該顯示介面互動之其他電子裝置。伺服器計算裝置130描繪為一單一計算裝置的情況下,伺服器計算裝置130可包括服務客戶端計算裝置140消耗之一或更多軟體應用程式的任何數量之整合或分散計算裝置。
圖1描繪之各種不同構件(例如,構件129、130、與140)可經由一網路50來耦合至至少一個其他構件。網路50可包含將該等構件間之電子通訊賦能的任何基礎建設或基礎建設之組合。例如,網路50可包括網際網路、一內部網路、一PAN(個人區域網路)、一LAN(區域網路)、一WAN(廣域網路)、一SAN(儲存區域網路)、一MAN(都會區域網路)、一無線網路、一蜂巢式通訊網路、一公開交換電話網路、及/或其他網路的任何其中之一或更多。根據各種不同實施態樣,本文所述之視訊處理系統110與各種不同構件可以硬體及/或組配硬體之程式設計來予以執行。此外,本文所述之圖1與其他圖形中,亦可使用非描繪之不同數量的構件或實體。
視訊處理系統110可以允許本地與遠端使用者具有其可透過一看透玻璃來彼此面對、同時透過顯示在該看透玻璃上之共享內容來彼此互動的一真實合作體驗的方式來處理一視訊擷取裝置擷取之一視訊串流。視訊處理系統110可建立該視訊擷取裝置擷取之視訊串流的一鏡射視訊影像、辨識及/或檢測該鏡射視訊影像中之字元資料、及/或藉由翻轉代表該檢測字元資料之該鏡射視訊影像中的一部分來修正該不佳的鏡子影像效應。代表該檢測字元資料之部分的翻轉造成之任何透視失真亦可被修正。再者,視訊處理系統110可增強該檢測字元資料之解析度與精確度。
為促進該等與其他功能,視訊處理系統110可包含一視訊鏡射引擎121、一檢測引擎122、一修正引擎123、 一字元增強引擎124、以及一輸出產生引擎125、及/或其他引擎。如本文使用之術語“引擎”參照為硬體與執行一指定功能之程式設計的一組合。如關於圖2繪示,每一引擎之硬體,例如,可包括一處理器與一機器可讀儲存媒體的其中之一或兩個,而該程式設計為儲存於該機器可讀儲存媒體中並可由該處理器執行來實施該指定功能之一組指令或編碼。
視訊鏡射引擎121可建立及/或產生由一視訊擷取裝置擷取之一視訊串流的一鏡射樣板。如上所述,因為針對兩使用者該共享內容以該相同走向來顯示,故該遠端使用者之擷取視訊影像可水平翻轉(或鏡顛倒),使得該螢幕上顯示之共享內容對兩使用者而言顯示為正確。例如,該視訊串流之視訊內容可在該擷取視訊影像之中心軸附近水平翻轉。此範例中,該第一使用者之視訊影像可為鏡顛倒並投射至該第二看透螢幕。同樣地,該第二使用者之視訊影像可為鏡顛倒並投射至該第一看透螢幕。
檢測引擎122可辨識及/或檢測一視訊串流中之字元資料(例如,字母、數字、符號、等等)。該字元資料可基於各種不同方式來辨識及/或檢測。於一範例中,該字元資料可藉由將該等字元與於一資料庫(例如,字元資料庫)中儲存與維護之已知字元作圖形上匹配來檢測。此範例中,該OCR(光學字元辨識)技術可用來將該等字元與該等已知字元作圖形上匹配。該字元資料庫可更新一段時間以包括額外字元、字型、或字符來作更好的辨識。英文與外國 語言字元兩者以及標點符號或其他符號可包括在該字元資料庫中。
另一範例中,檢測引擎122可辨識已知包含字元資料之一外型。一資料庫(例如,外型資料庫)可儲存已知包含字元資料與其外型特性之至少一外型。諸如一方形(例如,一片紙、記號、海報、等等)、矩形(例如,一片紙、記號、海報、等等)、八邊形(例如,一停止記號)、T恤外型、或一旗子外型之外型,在該等外型中通常具有某些字母、數字、或符號。由於該類外型比其他類型的物件或外型更可能包含該字元資料,故其應更小心細查來看是否包含字元資料。包括在該外型資料庫中之外型可基於使用者輸入來決定。某些實例中,一機器學習演算法可用來識別先前已決定來實際包含包括在該外型資料庫中之字元資料的外型。某些實施態樣中,一旦具有儲存於該外型資料庫中之外型的至少其中之一的特性之一特別外型於該視訊串流中檢測到,則檢測引擎122可檢測該外型中之字元資料。
還有另一範例中,一視訊擷取裝置擷取之一視域可具有該視域之一指定部段,而該指定部段中之任何字元資料可由檢測引擎122來辨識。此範例中,一使用者可保持一片紙向上,使得該紙上寫的任何字元資料可放置在該視域之指定部段中。檢測引擎122之後可辨識及/或檢測該鏡頭視域之指定部段中顯示的字元資料。描繪使用該鏡頭視域之指定部段來檢測字元資料的一示範圖形繪示於圖7。
修正引擎123可藉由於一軸線(例如,該檢測部分 之中央軸)附近水平翻轉代表該檢測字元資料之視訊串流的一部分來修正該鏡子影像效應。某些實施態樣中,修正引擎123可藉由翻轉檢測引擎122辨識之外型中的一物件來修正該鏡子影像效應。例如,一T恤外型於該視訊串流中辨識時,該外型可在該T恤外型之中央軸附近水平翻轉,允許該外型中之任何字元資料亦於附近翻轉。
某些實施態樣中,該視訊擷取裝置可包含決定至該鏡頭之一視域範圍中的一人或其他物件之距離的一深度鏡頭。使用該深度鏡頭,修正引擎123可鏡顛倒(或水平翻轉)與該深度鏡頭之一第一距離以及與該深度鏡頭之一第二距離間的任何字元、實體物件、或甚至整個空間。某些實例中,該鏡頭之檢視空間可分為若干不同的深度範圍。針對每一深度範圍,修正引擎123可指定哪個需要鏡顛倒而哪個需要維持不變(例如,不鏡射)。於一範例中,修正引擎123可僅鏡顛倒(或水平翻轉)從該深度鏡頭1-3英尺內呈現之字元資料。任何其他實體物件之走向或該深度範圍(例如,1-3英尺)內之空間本身可維持不改變。修正引擎123可鏡顛倒(或水平翻轉)從該深度鏡頭3-6英尺內之整個空間,其中從該深度鏡頭6英尺以上的空間走向可維持相同。
此外,修正引擎123可修正代表該檢測字元資料之視訊串流的翻轉部分造成之任何透視失真。該視訊串流的一特定部分翻轉時,其可使該視訊具有造作的透視失真。例如,若該字“HELLO”寫在一張紙上,其中該紙的一端比另一端更接近該螢幕,則該視訊擷取影像中該字母 “H”看起來比該字母“O”大。該字被翻轉而該紙張走向維持相同時,該最後的視訊影像看起來會很造作且嚴重危及該真實的合作體驗。因此,該翻轉字元部分造成之任何透視失真可被修正來傳達一甚至更真實的合作體驗。
字元增強引擎124可增強該視訊串流中之辨識及/或檢測字元資料。該等辨識字元之視訊影像可變得更有型、更清晰、以及更精確。於一範例中,字元增強引擎124可找出最接近的匹配字型或字符且以該等字型或字符來替代該等檢測字元。字型、字符、及/或其他相關資料可儲存在一字型資料庫及/或其他資料庫中。
輸出產生引擎125可產生一輸出視訊串流來投射至一看透螢幕。該輸出視訊串流可包含具有(修正引擎123形成的)翻轉部分與該共享內容之(視訊鏡射引擎121形成的)鏡射視訊串流。該共享內容可與(具有如本文所述之翻轉部分的)該擷取視訊串流之鏡射樣板組合來建立該輸出視訊串流。該輸出視訊串流可投射至及/或顯示於一遠端使用者前之一看透螢幕上。例如,擷取該第一使用者之一視域的該輸出視訊串流可顯示在該第二看透螢幕上。相同地,擷取該第二使用者之一視域的該輸出視訊串流可顯示在該第一看透螢幕上。
執行其個別功能時,引擎121-125可存取資料儲存器129。資料儲存器129可代表視訊處理系統110能夠存取且可用來儲存與擷取資料之任何記憶體。資料儲存器129可包含軟碟、硬碟、光碟、磁帶、固態驅動器、隨機存取記 憶體(RAM)、唯讀記憶體(ROM)、電子可抹除可程式化唯讀記憶體(EEPROM)、隨身碟、可攜式光碟、及/或用於儲存電腦可執行指令及/或資料之其他儲存媒體。視訊處理系統110可本地或者經由網路50或其他網路來遠端存取資料儲存器129。某些實施態樣中,資料儲存器129可包含如本文所述之該字元資料庫、該外型資料庫、該字型資料庫、及/或其他資料庫。
資料儲存器129可包括一資料庫來組織與儲存資料。資料庫可為、包括、或介接至,例如,由Oracle公司商業販售之一OracleTM關係資料庫。亦可使用、合併、或存取其他資料庫,諸如InformixTM、DB2(資料庫2)或其他資料儲存器,包括檔案式(例如,以逗號或欄標分開檔案)、或查詢格式、平台、或來源,諸如OLAP(線上分析處理)、SQL(結構式查詢語言)、一SAN(儲存區域網路)、微軟AccessTM、MySQL、PostgreSQL、HSpace、Apache、Cassandra、MongoDB、Apache CouchDB TM、或其他資料庫。該資料庫可常駐於一單一或多個實體裝置以及於一單一或多個實體位置。該資料庫可儲存多種類型的資料及/或檔案以及相關聯資料或檔案說明、管理資訊、或任何其他資料。
圖2為一描繪包含一處理器針對視訊處理執行之指令的一示範機器可讀媒體210之方塊圖。
上述說明中,引擎121-125可說明為硬體與程式設計的組合。引擎121-125可以許多方法來執行。參照圖2,該程式設計可包括儲存在一機器可讀儲存媒體210中之處 理器可執行指令221-225,而該硬體可包括用以執行該等指令之一處理器211。因此,機器可讀儲存媒體210可如上述儲存由處理器211執行來實施圖1之視訊處理系統110的程式指令或編碼。
機器可讀儲存媒體210可為包含或儲存可執行指令之任何電子、磁性、光學、或其他實體儲存裝置。某些實施態樣中,機器可讀儲存媒體210可為一非暫態儲存媒體,而該術語“非暫態”並不含有暫態傳播信號。機器可讀儲存媒體210可於一單一裝置中或分散在多個裝置間執行。同樣地,處理器211可代表能夠執行機器可讀儲存媒體210儲存之指令的任何數量之處理器。處理器211可整合於一單一裝置或分散在多個裝置間。此外,機器可讀儲存媒體210可完全或部分地整合在與處理器211相同的裝置中、或者其可分開但可供該裝置與處理器211存取。
於一範例中,該等程式指令可為安裝時由處理器211執行來實施視訊處理系統110之一安裝套件的一部分。此案例中,機器可讀儲存媒體210可為一可攜式媒體,諸如一軟碟、CD、DVD、或隨身碟、或者由該安裝套件可被從其下載與安裝之一伺服器維護的一記憶體。另一範例中,該等程式指令可為已安裝之一應用程式或多個應用程式的一部分。在此,機器可讀儲存媒體210可包括一硬碟、光碟、磁帶、固態驅動器、RAM、ROM、EEPROM、等等。
處理器211可為一或更多中央處理單元(CPU)、微處理器、及/或適合擷取與執行機器可讀儲存媒體210中儲 存的指令之其他硬體裝置。處理器211可提取、解碼、與執行程式指令221-225、及/或其他指令。如擷取與執行指令之一替代方案或除此之外,處理器211可包括一或更多電子電路,其包含用以執行一或更多指令221-225、及/或其他指令的功能之許多電子構件。
圖2中,機器可讀儲存媒體210中之可執行程式指令描繪為視訊鏡射指令221、檢測指令222、修正指令223、字元增強指令224、與輸出產生指令225。指令221-225代表執行時可使處理器211來個別實施引擎121-125之程式指令。
圖3為一描繪基於已知外型來檢測一視訊串流中之字元資料的一示範方法300之流程圖。圖3中(以及諸如圖4之其他描繪圖中)描繪之各種不同處理方塊及/或資料串流將於本文更詳細說明。該等說明的處理方塊可使用上文詳細說明之某些或所有該等系統構件來完成,而某些實施態樣中,各種不同的處理方塊可以不同序列來執行,而各種不同的處理方塊可加以省略。額外的處理方塊可連同該等描繪流程圖中顯示之某些或所有處理方塊來一起執行。某些處理方塊可同時執行。因此,如圖繪示(以及下文更詳細說明)之方法300係表示為一範例,而本身而言,不應視為限制。方法300可以儲存於一機器可讀儲存媒體,諸如機器可讀儲存媒體210中之可執行指令的型式、及/或電子電路的型式來加以執行。
方法300可從方塊310開始並行進至方塊321,其 中該至少一外型與有關該至少一外型之特性儲存於一資料庫中。該資料庫(例如,外型資料庫)可儲存已知包含字元資料與其外型特性之至少一外型。諸如一方形(例如,一片紙、記號、海報、等等)、矩形(例如,一片紙、記號、海報、等等)、八邊形(例如,一停止記號)、T恤外型、或一旗子外型之外型,在該等外型中通常具有某些字母、數字、或符號。由於該類外型比其他類型的物件或外型更可能包含該字元資料,故其應更小心細查來看是否包含字元資料。
方塊322中,可取得一視訊串流。某些實施態樣中,該視訊串流可為一視訊擷取裝置擷取之一初始視訊串流的一鏡射樣板。
方塊323中,方法300可包括決定該視訊串流是否包含顯示具有該至少一外型之特別外型特性的一外型之視訊內容。若具有基於比較其特性來匹配該等儲存外型的至少其中之一的一特別外型,則方法300可行進至方塊324,其中該外型中之字元資料可加以辨識及/或檢測。另一方面,若方法300決定該視訊串流中未發現該類外型,則方法300可行進至方塊330。方法300之後可在方塊330停止。
再次參照圖1,檢測引擎122可負責執行方法300。
圖4為一描繪一看透螢幕式合作系統中使用之視訊處理的一示範方法400之流程圖。如圖繪示(以及下文更詳細說明)之方法400係表示為一範例,而本身而言,不應視為限制。方法400可以儲存於一機器可讀儲存媒體,諸如機器可讀儲存媒體210中之可執行指令的型式、及/或電子 電路的型式來加以執行。
方法400可從方塊410開始並行進至方塊421,其中本地與遠端使用者間共享的任何內容可投射至一第一使用者之一第一看透螢幕。該第一使用者可修改、新增、或以其他方式與該螢幕上之共享內容互動。該第一使用者(與該第一使用者附近的空間)之一視訊影像可被接收(方塊422)並用來產生一鏡射視訊影像(方塊423)。方塊424中,方法400可包括辨識該鏡射視訊影像中之字元資料。亦可使用如本文所述之各種不同字元辨識技術。方塊425中,代表該字元資料之一部分可在該鏡射視訊影像中之一軸心(例如,該部分之中心軸)附近翻轉。方塊426中,包含具有該翻轉部分之鏡射視訊影像的一輸出視訊影像可被產生。該輸出視訊影像可與該共享內容組合(如由該第一使用者修改、新增、或以其他方式互動)並投射至一第二使用者之一第二看透螢幕(方塊427)。方法400之後可在方塊430停止。
再次參照圖1,輸出產生引擎125可負責執行方塊421、426、與427。視訊鏡射引擎121可負責執行方塊422與423。檢測引擎122可負責執行方塊424。修正引擎123可負責執行方塊425。
圖5為一描繪兩個使用者如何使用一看透螢幕式合作系統來通訊的示範圖片。應注意該遠端使用者之視訊影像可被水平翻轉,使得該螢幕上之圖式(例如,共享內容)對兩使用者而言顯示為正確。此範例中,該遠端使用者T恤上寫的文字可根據本文所述之各種不同實施態樣來 檢測並於附近翻轉。
圖6為一描繪一看透螢幕式合作系統之一示範系統設計600的圖形。
該看透螢幕式合作系統可包括透過一第一看透螢幕620A擷取一第一使用者610A之一視域的一第一視訊擷取裝置635A。該第一視訊擷取裝置635A可安裝在該第一螢幕620A後方,射穿該第一螢幕620A。該第一使用者610A可呈現在該螢幕620A之另一側,透過該第一螢幕620A來面對該第一鏡頭635A。一第一投影機630A可安裝在與該第一鏡頭635A同側,來於該第一螢幕620A上投射共享內容650。
該系統之一類似安排可針對一第二使用者610B在一遠端位置設定。例如,一第二視訊擷取裝置635B可透過一第二看透螢幕620B擷取該第二使用者610B之一視域。該第二視訊擷取裝置635B可安裝在該第二螢幕620B後方,射穿該第二螢幕620B。該第二使用者610B可呈現在該螢幕620B之另一側,透過該第二螢幕620B來面對該第二鏡頭635B。該第一使用者610A共享與互動之內容以及該第一使用者610A之擷取視域可由一第二投影機630B投射至該第二看透螢幕620B。同樣地,該第二使用者610B共享與互動之內容以及該第二使用者610B之擷取視域可由該第一投影機630A投射至該第一看透螢幕620A。從與該本地使用者一致的一觀點,該看透螢幕式系統之特別安排可允許擷取該遠端使用者之一視訊影像。
該第一視訊擷取裝置635A可擷取該第一使用者 610A之一視訊影像640。如上所述,因為該共享內容650針對兩使用者可顯示在該相同走向,故系統110可建立該視訊影像640之一鏡子樣板641,使得該螢幕上顯示之共享內容對兩使用者而言顯示為正確。此方案之一問題為該鏡射視訊影像641中顯示之任何字元會顯示為向後書寫。為了修正此不佳的鏡子影像效應,系統110可辨識及/或檢測該鏡射視訊影像641中之字元資料(例如,字母、數字、符號、等等)、並翻轉代表該檢測字元資料(例如,一修正視訊影像642)之該鏡射視訊影像641的一部分。圖6中,該第一使用者610A的T恤上寫的字“HELLO”可根據本文所述之各種不同實施態樣來檢測並於附近翻轉。此外,該字“HELLO”之解析度與精確度可根據本文所述之各種不同實施態樣來增強。
系統110之後可產生一輸出視訊串流643來投射至該第二看透螢幕620B。該輸出視訊串流643可包含該修正視訊影像642與該共享內容650。該共享內容650可與該修正視訊串流642組合來建立該輸出視訊串流643。該輸出視訊串流643之後可投射至及/或顯示於該第二看透螢幕620B上。未顯示於圖6的是該顛倒路徑,其中該第二使用者610B的視訊影像由該第二鏡頭635B擷取,於該第一看透螢幕620A上以該共享內容650來鏡射、修正、與顯示。
圖7為一描繪檢測一視訊串流中之字元資料的一示範實施態樣之圖形。
一視訊擷取裝置擷取之一視域可具有該視域之 一指定部段760(圖7中顯示為陰影),其中該指定部段760中之任何字元資料可被檢測。一使用者710可保持一片紙張750向上,使得該紙張750上寫的任何字元資料(例如,該字“HELLO”)可放置在該視域之指定部段760中。系統110可辨識及/或檢測該相機視域之指定部段760中顯示的該字“HELLO”。系統110可建立該擷取視訊740之一鏡射樣板741並藉由水平翻轉該字“HELLO”來進一步修正該鏡射樣板741(例如,一修正視訊影像742)。
圖8為一描繪使用一深度鏡頭來控制一鏡子影像效應之一示範實施態樣800的圖形。
一深度鏡頭830可決定至該鏡頭830之一視域範圍中的一個人810或其他物件之距離。使用該深度鏡頭830,系統100可鏡顛倒(或水平翻轉)與該深度鏡頭830之一第一距離以及與該深度鏡頭830之一第二距離間的任何字元、實體物件、或甚至整個空間。某些實例中,該鏡頭之檢視空間可分為若干不同的深度範圍。針對每一深度範圍,系統100可指定哪個需要鏡顛倒而哪個需要維持不變(例如,不鏡射)。例如,系統100可僅鏡顛倒(或水平翻轉)一第一深度範圍850中呈現之字元資料。該深度範圍中之任何其他實體物件或空間本身的走向可維持不變。此外,一第二深度範圍851中之整個空間可為鏡顛倒(或水平翻轉),而一第三深度範圍852中之空間的走向可維持相同(例如,不鏡射)。
本發明已參照上述範例來顯示與說明。然而,應 了解在不違背定義在下列請求項中之本發明的精神與範疇之情況下,其可具有其他型式、細節與範例。
600‧‧‧系統設計
610A‧‧‧第一使用者
610B‧‧‧第二使用者
620A‧‧‧第一看透螢幕
620B‧‧‧第二看透螢幕
630A‧‧‧第一投影機
630B‧‧‧第二投影機
635A‧‧‧第一視訊擷取裝置
635B‧‧‧第二視訊擷取裝置
640‧‧‧視訊影像
641‧‧‧鏡子樣板
642‧‧‧修正視訊影像
643‧‧‧輸出視訊串流
650‧‧‧共享內容

Claims (15)

  1. 一種由一計算系統用於檢測字元資料執行之方法,該方法包含下列步驟:將至少一外型與有關該至少一外型之特性儲存於一資料庫中;取得一視訊串流;決定該視訊串流是否包含顯示具有該至少一外型之特性的一外型之視訊內容;以及用以響應決定該視訊串流包含顯示具有該至少一外型之特性的一外型之視訊內容,來檢測該外型中之字元資料。
  2. 如請求項1之方法,其中該視訊串流為一視訊擷取裝置擷取之一原始視訊串流的一鏡射樣板,該方法更包含下列步驟:於一鏡第一軸翻轉代表該檢測字元資料之視訊串流的一部分;以及產生包含具有該翻轉部分之視訊串流的一輸出視訊串流。
  3. 如請求項1之方法,其中該至少一外型包含一方形、矩形、八邊形、T恤外型、或一旗標外型。
  4. 如請求項2之方法,更包含下列步驟:修正代表該檢測字元資料之部分的翻轉造成之透視失真。
  5. 如請求項1之方法,更包含下列步驟:藉由增強該檢測字元資料之解析度或精確度來增強該檢測字元資料;以及產生包含具有該增強字元資料之視訊串流的一輸出視訊串流。
  6. 一種包含由一計算裝置之一處理器用於辨識字元資料執行的指令之機器可讀儲存媒體,該機器可讀儲存媒體包含:用以從透過一第一看透螢幕來擷取一視域之視訊影像的一第一鏡頭來接收一視訊影像之指令;用以使用該擷取視訊影像來產生一鏡射視訊影像之指令;用以辨識該鏡射視訊影像中之字元資料的指令;以及用以於一鏡第一軸翻轉代表該鏡射視訊影像中之辨識字元資料的一部分之指令。
  7. 如請求項6之機器可讀儲存媒體,其中用以辨識該鏡射視訊影像中之字元資料的指令,更包含用以基於OCR(光學字元辨識)技術來辨識該字元資料之指令。
  8. 如請求項6之機器可讀儲存媒體,其中用以辨識該鏡射視訊影像中之字元資料的指令,更包含:用以將至少一外型與有關該至少一外型之特性儲存於一資料庫中之指令;用以決定該鏡射視訊影像是否包含顯示具有該至 少一外型之特性的一外型之視訊內容的指令;以及用以響應決定該鏡射視訊影像包含顯示具有該至少一外型之特性的一外型之視訊內容,用以辨識該外型中之字元資料的指令。
  9. 如請求項6之機器可讀儲存媒體,其中用以辨識該鏡射視訊影像中之字元資料的指令,更包含:用以決定任何字元資料何時呈現在該第一鏡頭擷取之視域的一指定部段中之指令;以及用以辨識該指定部段中之字元資料的指令。
  10. 如請求項6之機器可讀儲存媒體,其中該第一鏡頭為一深度鏡頭而該視域包括多個物件,該方法更包含:用以檢測至少一物件呈現在與該深度鏡頭之一第一距離以及與該深度鏡頭之一第二距離間的指令;以及用以產生該至少一物件之鏡射視訊影像的指令。
  11. 如請求項6之機器可讀儲存媒體,更包含:用以提供投射至該第一看透螢幕之共享內容的指令;以及用以產生投射至一第二看透螢幕之一輸出視訊影像的指令,其中該輸出視訊影像包含具有該翻轉部分與該共享內容之鏡射視訊影像。
  12. 一種用以檢測字元資料之系統,包含有:一處理器,其組配來執行下列步驟:從透過一第一看透螢幕來擷取一第一使用者之一視域的一視訊擷取裝置取得一即時視訊串流,其 中該第一使用者與一第二使用者使用看透螢幕式合作系統來通訊;鏡射該即時視訊串流之視訊內容以建立該即時視訊串流之一鏡射樣板;檢測該鏡射樣板之字元資料;於該鏡射樣板中水平翻轉代表該檢測字元資料之一部分;產生包括具有該翻轉部分之鏡射樣板的一輸出視訊串流;以及將該輸出視訊串流提供至該第二使用者,使得該輸出視訊串流投射至該第二使用者使用之一第二看透螢幕。
  13. 如請求項12之系統,其中檢測該鏡射樣板中之字元資料包含下列步驟:將至少一外型與有關該至少一外型之特性儲存於一資料庫中;決定該鏡射樣板是否包含顯示具有該至少一外型之特性的一外型之視訊內容;以及用以響應決定該鏡射樣板包含顯示具有該至少一外型之特性的一外型之視訊內容,來檢測該外型中之字元資料。
  14. 如請求項12之系統,其中檢測該鏡射樣板中之字元資料包含下列步驟:決定任何字元資料何時呈現在該視訊擷取裝置擷 取之視域的一指定部段中;以及檢測該指定部段中之字元資料。
  15. 如請求項12之系統,其中該處理器更組配來執行下列步驟:藉由增強該檢測字元資料之解析度或精確度來增強該檢測字元資料;以及產生包括該增強字元資料之輸出視訊串流。
TW104118779A 2014-06-30 2015-06-10 即時視訊串流中字元辨識技術 TW201603567A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2014/044969 WO2016003436A1 (en) 2014-06-30 2014-06-30 Character recognition in real-time video streams

Publications (1)

Publication Number Publication Date
TW201603567A true TW201603567A (zh) 2016-01-16

Family

ID=55019784

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104118779A TW201603567A (zh) 2014-06-30 2015-06-10 即時視訊串流中字元辨識技術

Country Status (2)

Country Link
TW (1) TW201603567A (zh)
WO (1) WO2016003436A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176148B2 (en) * 2015-08-27 2019-01-08 Microsoft Technology Licensing, Llc Smart flip operation for grouped objects
US10762375B2 (en) 2018-01-27 2020-09-01 Microsoft Technology Licensing, Llc Media management system for video data processing and adaptation data generation
US11972623B2 (en) 2021-07-23 2024-04-30 International Business Machines Corporation Selective mirror enhanced video stream

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6232947B1 (en) * 1994-03-15 2001-05-15 Canon Kabushiki Kaisha Video information display system including a reflective type active matrix addressed liquid crystal display and method for synthetically combining and editing data
US7705877B2 (en) * 2004-01-28 2010-04-27 Hewlett-Packard Development Company, L.P. Method and system for display of facial features on nonplanar surfaces
US20080292215A1 (en) * 2007-05-23 2008-11-27 Xerox Corporation Selective text flipping and image mirroring system and method
US8914735B2 (en) * 2011-05-06 2014-12-16 David H. Sitrick Systems and methodologies providing collaboration and display among a plurality of users
US9190021B2 (en) * 2012-04-24 2015-11-17 Hewlett-Packard Development Company, L.P. Visual feedback during remote collaboration

Also Published As

Publication number Publication date
WO2016003436A1 (en) 2016-01-07

Similar Documents

Publication Publication Date Title
US10832086B2 (en) Target object presentation method and apparatus
CA3083486C (en) Method, medium, and system for live preview via machine learning models
US11842514B1 (en) Determining a pose of an object from rgb-d images
US11700417B2 (en) Method and apparatus for processing video
US11854230B2 (en) Physical keyboard tracking
EP2972950B1 (en) Segmentation of content delivery
CN111652796A (zh) 图像处理方法、电子设备及计算机可读存储介质
US11680814B2 (en) Augmented reality-based translations associated with travel
KR20230162987A (ko) 서드 파티 애플리케이션들을 위한 증강 현실 콘텐츠에서의 얼굴 합성
US9892648B2 (en) Directing field of vision based on personal interests
KR20230162977A (ko) 얼굴 합성을 포함하는 상호작용적 증강 현실 콘텐츠
US11017233B2 (en) Contextual media filter search
US20220101355A1 (en) Determining lifetime values of users in a messaging system
KR20230162107A (ko) 증강 현실 콘텐츠에서의 머리 회전들에 대한 얼굴 합성
KR20230162972A (ko) 광고를 위한 증강 현실 콘텐츠에서의 얼굴 합성
US20160284127A1 (en) Individualized content in augmented reality systems
KR20230162096A (ko) 얼굴 표정의 선택을 사용한 온라인 커뮤니티를 위한 콘텐츠에서의 얼굴 합성
KR20230162971A (ko) 오버레이된 증강 현실 콘텐츠에서의 얼굴 합성
TW201603567A (zh) 即時視訊串流中字元辨識技術
EP3652704B1 (en) Systems and methods for creating and displaying interactive 3d representations of real objects
CN111552829A (zh) 用于分析图像素材的方法和装置
US9230366B1 (en) Identification of dynamic objects based on depth data
US20220350974A1 (en) Integrating overlaid textual digital content into displayed data via graphics processing circuitry using a frame buffer
US20220101349A1 (en) Utilizing lifetime values of users to select content for presentation in a messaging system
US9721143B2 (en) Modification of visual depictions