TW201523426A - 顯示於觸控螢幕上的可動作內容 - Google Patents

顯示於觸控螢幕上的可動作內容 Download PDF

Info

Publication number
TW201523426A
TW201523426A TW103128323A TW103128323A TW201523426A TW 201523426 A TW201523426 A TW 201523426A TW 103128323 A TW103128323 A TW 103128323A TW 103128323 A TW103128323 A TW 103128323A TW 201523426 A TW201523426 A TW 201523426A
Authority
TW
Taiwan
Prior art keywords
text
user
gesture
user gesture
determining
Prior art date
Application number
TW103128323A
Other languages
English (en)
Inventor
Peng Bai
Qiang Huo
Jun Du
Lei Sun
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of TW201523426A publication Critical patent/TW201523426A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Control And Other Processes For Unpacking Of Materials (AREA)
  • Water Treatment By Sorption (AREA)
  • Surgical Instruments (AREA)

Abstract

本文介紹一些實施方式,該等實施方式可在觸控螢幕顯示器上展示包括視訊之媒體檔案。可偵測到在觸控螢幕顯示器上執行之使用者手勢。使用者手勢可包括輕敲手勢、滑動手勢,或輕敲及按住及在按住之同時拖曳之手勢中之一者。可決定由使用者手勢選定之文字。可至少部分地基於由使用者手勢選定之文字來自動執行一或更多個後續動作。

Description

顯示於觸控螢幕上的可動作內容
本發明係關於顯示於觸控螢幕上的可動作內容。
當使用者正在檢視諸如視訊檔案、串流視訊、文件、網頁,或類似物之媒體檔案時,使用者可能需要獲得關於該媒體檔案所顯示之文字的資訊。例如,檢視關於某技術課題之演示文稿之使用者可能需要獲得與該演示文稿之作者中之一者或與該技術課題關連之資訊。使用者可暫停對媒體檔案之檢視,打開網頁瀏覽器,導航至搜尋引擎,使用作者姓名或技術課題關鍵字執行搜尋,檢視結果,及選擇結果中顯示之一或更多個鏈接以獲得更多更多資訊。在使用者已獲得資訊之後,使用者可繼續檢視媒體檔案。每次使用者需要獲得關於媒體檔案所顯示之文字的資訊時,使用者可重複暫停對媒體檔案之檢視。然而,每次使用者需要獲得關於媒體檔案所顯示之文字的資訊時重複暫停對媒體檔案之檢視可能較為耗時,及/或可能中斷經由媒體檔案所展示之材料流。
提供此【發明內容】用以以簡化形式介紹選定概念,該等概念在下文之【實施方式】中進一步描述。此【發明內容】並非旨在確定本文所主張之標的物之關鍵特徵或基本特徵;亦非旨在用於決定或限制本文所主張之標的物之範疇。
一些實施方式可在觸控螢幕顯示器上展示包括視訊之媒體檔案。可偵測到在觸控螢幕顯示器上執行之使用者手勢。使用者手勢可包括輕敲手勢、滑動手勢,或輕敲及按住及在按住同時拖曳之手勢中之一者。可決定由使用者手勢選定之文字。可至少部分地基於由使用者手勢選定之文字來自動執行一或更多個後續動作。
102‧‧‧計算裝置
104‧‧‧伺服器
106‧‧‧網路
108‧‧‧處理器
110‧‧‧觸控螢幕顯示器
112‧‧‧記憶體
114‧‧‧媒體放映模組
116‧‧‧螢幕擷取模組
118‧‧‧輸入處理程式模組
120‧‧‧文字提取模組
122‧‧‧文字辨識模組
124‧‧‧上下文決定模組
126‧‧‧使用者喜好設定
128‧‧‧後續動作模組
130‧‧‧媒體檔案
132‧‧‧螢幕擷取
134‧‧‧使用者輸入
136‧‧‧使用者手勢
138‧‧‧歷史檔案
140‧‧‧位置資料
142‧‧‧提取文字影像
144‧‧‧選定文字
146‧‧‧上下文
148‧‧‧預設動作
150‧‧‧後續動作
152‧‧‧結果
200‧‧‧計算裝置
202‧‧‧媒體播放器介面
204‧‧‧輕敲手勢
208‧‧‧窗口
210‧‧‧翻譯
212‧‧‧搜尋結果
300‧‧‧計算裝置
302‧‧‧滑動手勢
400‧‧‧計算裝置
402‧‧‧輕敲及按住手勢
404‧‧‧在按住之同時拖曳之手勢
500‧‧‧流程
502‧‧‧步驟
504‧‧‧步驟
506‧‧‧步驟
508‧‧‧步驟
510‧‧‧步驟
512‧‧‧步驟
514‧‧‧步驟
516‧‧‧步驟
600‧‧‧流程
602‧‧‧步驟
604‧‧‧步驟
606‧‧‧步驟
608‧‧‧步驟
610‧‧‧步驟
612‧‧‧步驟
614‧‧‧步驟
616‧‧‧步驟
618‧‧‧步驟
620‧‧‧步驟
700‧‧‧流程
702‧‧‧處理器
704‧‧‧記憶體
706‧‧‧通信介面
708‧‧‧顯示器裝置
710‧‧‧輸入/輸出(I/O)裝置
712‧‧‧大容量儲存裝置
714‧‧‧系統匯流排
716‧‧‧其他模組
718‧‧‧其他資料
參考附圖而進行詳細描述。在圖式中,元件符號之一或多個最左側數字確定元件符號首次出現時所在之圖式。不同圖式中之相同元件符號指示類似或相同的項。
第1圖是根據一些實施方式之包括後續動作模組之說明性架構。
第2圖是根據一些實施方式之具有觸控螢幕顯示器使用者介面之說明性計算裝置,該使用者介面圖示接收輕敲手勢。
第3圖是根據一些實施方式之具有觸控螢幕顯示器使用者介面之說明性計算裝置,該使用者介面圖示接收滑動手勢。
第4圖是根據一些實施方式之具有觸控螢幕顯示器使用者介面之說明性計算裝置,該使用者介面圖示接收輕敲 及按住手勢。
第5圖是根據一些實施方式之示例性製程之流程圖,該製程包括偵測輕敲或滑動手勢。
第6圖是根據一些實施方式之示例性製程之流程圖,該製程包括偵測輕敲及按住手勢。
第7圖是根據一些實施方式之示例性計算裝置及環境之方塊圖。
如上文所論述,每次使用者需要獲得關於媒體檔案所顯示之文字的資訊時重複暫停對媒體檔案之檢視可能較為耗時,及/或可能中斷經由媒體檔案所展示之材料流。本文所述之系統及技術可賦能回應於對顯示包括文字之媒體之觸控螢幕上的使用者手勢之偵測而自動執行不同動作。使用者手勢可藉由使用諸如輕敲觸控螢幕中顯示字之一部分,滑動觸控螢幕中顯示兩個或兩個以上字之一部分,或輕敲及按住觸控螢幕中之第一部分及拖曳(在按住之同時)過觸控螢幕中之第二部分的手勢來選擇媒體所顯示之文字。後一手勢亦可被稱作輕敲及按住及在按住之同時拖曳。本文所述之手勢可藉由使用多種技術執行,包括使用使用者之附屬肢體(例如指尖)之至少一部分、使用選擇工具(例如尖筆)、使用多點觸控(例如指尖及拇指或或兩個指尖)手勢、非觸控手勢(例如由攝影機辨識之手勢,攝影機如微軟Kinect®)、觸控加語音命令(例如觸控字,然後說出「搜尋」或「翻譯」)、另一類型之輸入機制,或上述各者之任一組合。
使用者可在具有觸控螢幕顯示器之計算裝置上檢視媒體檔案。例如,計算裝置可包括桌上型電腦、膝上型電腦、平板電腦、行動電話、遊戲設備、媒體放映設備,或其他類型之計算設備。媒體檔案可為視訊(例如視訊檔案或串流視訊)、使文字(例如與聲訊檔案關連之資訊,如標題、藝術家資訊、歌詞,或類似物)得以顯示之聲訊檔案、文件、影像檔案(例如圖像、相片,或電腦生成之影像)、網頁瀏覽器所顯示之頁面、另一類型之媒體檔案,或上述各者之任一組合。使用者可在觸控螢幕上一位置處執行使用者手勢,該位置約對應於觸控螢幕上由媒體檔案顯示文字之位置。
輕敲手勢係指向觸控螢幕之一部分施加壓力達預定預定時段(例如在200與800毫秒之間)。滑動手勢係指自觸控螢幕之開始位置至結束位置施加壓力。輕敲及按住在按住之同時拖曳之手勢係指在觸控螢幕之開始位置施加壓力達預定時段,及在繼續施加壓力之同時將壓力位置移至觸控螢幕之結束位置。對於顯示多個框或頁之媒體檔案而言,輕敲及按住及在按住之同時拖曳之手勢可看到多個框或頁。例如,在開始位置之輕敲及按住可導致視訊放映暫停。在繼續施加壓力之同時(例如在按住之同時),將壓力位置拖曳(例如移動)至結束位置可使暫停之媒體前進(例如,視訊可前進到一或更多個下一框或文件可前進到一或更多個後續頁)。以此方式,輕敲及按住及在按住之同時拖曳之手勢可自可藉由使用多個框、多個文件頁或類似物而顯示之媒體檔案中選擇文字。當正在顯示包括文字之視訊時,輕敲及按住 及在按住之同時拖曳之手勢可跨過視訊中一個以上之框以自一個以上視訊框中選擇文字。當正在顯示包括多個頁之文件時,輕敲及按住及在按住之同時拖曳之手勢可跨過文件中一個以上之頁以自文件中一個以上之頁中選擇文字。
回應於對使用者手勢(例如輕敲、滑動,或輕敲及按住及在按住之同時拖曳)之偵測,可擷取一或更多個螢幕以擷取當執行手勢時正在觸控螢幕上顯示之媒體檔案之一部分。例如,當顯示文件時,可擷取在執行使用者手勢時所顯示之文字。作為另一實例,當顯示視訊時,可藉由使用框擷取器來擷取視訊之一或更多個框。
可決定與使用者手勢關連之位置資訊。例如,對於輕敲手勢而言,可決定與輕敲手勢關連之觸控螢幕上之坐標(例如x及y坐標)。對於滑動手勢而言,可決定與滑動手勢關連之開始坐標及結束坐標。對於輕敲及按住及在按住之同時拖曳之手勢而言,可決定每一框、每一頁,或其他類型之顯示器裝置之開始坐標及結束坐標。若在正在顯示視訊檔案、聲訊檔案,或包括時間資訊之其他類型之檔案時執行使用者手勢,則除了位置資訊之外亦可決定與該使用者手勢關連之諸如時間戳記或時間碼之時間資訊。例如,在當觸控螢幕顯示器上正在顯示視訊檔案時執行輕敲手勢或滑動手勢,可決定與該使用者手勢關連之位置資訊及時間資訊。為了進行說明,時間資訊可包括與使用者手勢關連之開始時間(例如,第一時間碼辨識何時發起使用者手勢)、與使用者手勢關連之結束時間(例如,第二時間碼辨識使用者手勢何時結 束)、與使用者手勢關連之另一類型之時間資訊,或上述各者之任何組合。
可基於與使用者手勢關連之位置資訊,藉由使用高效的使用者意向導向文字提取算法,自一或更多個螢幕擷取中提取文字影像塊。所提取之文字影像可使用光學字符識別(optical character recognition;OCR)或類似之文字提取技術以決定選定文字。例如,回應於輕敲手勢,可自螢幕擷取中提取字。所提取之字可對應於來自媒體檔案之文字,該文字在觸控螢幕上執行輕敲手勢之位置或鄰近位置顯示。回應於滑動手勢,可自螢幕擷取中提取一或更多個字。提取之字可對應於來自媒體檔案之文字之部分,該部分文字在觸控螢幕上執行滑動手勢之位置或鄰近位置顯示。回應於輕敲及按住及在按住之同時拖曳之手勢,可自一或更多個螢幕擷取中提取一或更多個字。所提取之字可對應於來自媒體檔案之文字之部分,該部分文字在觸控螢幕上執行輕敲及按住及在按住之同時拖曳之手勢之位置或鄰近位置處顯示。
在已自一或更多個螢幕擷取中提取一或更多個字之後,可自動執行一或更多個動作(例如無需與人互動)。可自動執行之動作可包括將選定文字自第一語言翻譯至第二語言,執行網際網路搜尋,執行特定網址之搜尋,或類似動作。可基於與選定文字(例如,位於選定文字之前及/或之後的文字、所獲得之媒體所在之網站或伺服器、媒體之作者或建立者,等)、使用者喜好設定、預設動作集,或上述各者之任何組合關連之上下文來決定回應於觸控螢幕上之使用者手勢 而自動執行之動作。例如,預設動作集可包括使用選定文字執行搜尋。作為另一實例,使用者喜好設定可規定動作集,該動作集包括將選定文字翻譯至目標語言,顯示譯文,及使用譯文執行搜尋。
自動執行之動作的結果可在正在顯示媒體檔案之窗口或第二窗口之中顯示。第二窗口可在顯示媒體之窗口鄰近處顯示,或以彈出式窗口(例如覆加在顯示媒體之窗口上)顯示。例如,選定文字之翻譯及使用譯文進行的網際網路搜尋之結果可在覆蓋顯示媒體之窗口的彈出式窗口中顯示。作為另一實例,選定文字之翻譯可在第一彈出式窗口中顯示,及使用譯文進行的網際網路搜尋之結果可在第二彈出式窗口中顯示。
在一些情況下,可使用兩個互動模型。當使用者檢視媒體內容(例如視訊檔案、聲訊檔案、文件,或類似物)時,可在接收使用者手勢時使用第一互動模型。當使用者在檢視媒體內容之同時執行使用者手勢時,可執行一或更多個預設動作,及預設動作之結果可在第二(例如彈出式)窗口中顯示。當在第二窗口中檢視預設動作之結果之同時,可將第二互動模型用於使用者手勢。例如,第一互動模型可包括將選定文字自來源語言翻譯至目標語言,及使用譯文執行搜尋。第二互動模型可包括使用選定文字執行搜尋。在此實例中,選定文字之翻譯在第一互動模型而非第二互動模型中執行。可使用使用者資料檔、使用者喜好設定檔案,或類似的使用者特定客製化技術來規定第一互動模型及第二互動模 型。
由此,在檢視媒體檔案時,使用者可輸入手勢以產生以下結果:(1)自媒體檔案之一部分提取文字,及(2)使用所提取之文字自動執行一或更多個動作。使用者手勢可包括例如輕敲手勢、滑動手勢,及輕敲及按住及在按住同時拖曳之手勢。回應於使用者手勢而可自動執行之動作可包括例如翻譯選定文字、使用選定文字執行搜尋,或類似動作。例如,正在檢視技術演示文稿(例如視訊、幻燈片集、文件、網頁,等)之使用者可輕敲或滑動技術術語或詞組以獲得與該術語或詞組關連之額外資訊。作為另一實例,正在檢視技術演示文稿之使用者可輕敲或滑動作者之姓名以獲得與該作者關連之額外資訊。
說明性架構
第1圖是根據一些實施方式之包括後續動作模組之說明性架構100。架構100包括使用網路106而耦接至一或更多個伺服器104之計算裝置102。
伺服器104可提供多種基於網路之服務,如用以搜尋網際網路之搜尋服務、用以將字、詞組,或句子自來源語言翻譯至目標語言之翻譯服務,等。網路106可包括有線及/或無線網路。有線網路可使用多種協定及標準,如乙太網路、電纜資料服務介面規範(data over cable service interface specification;DOCSIS)、數位用戶線(digital subscriber line;DSL),及類似協定中之一或更多者。無線網路可使用多種協定及標準,如碼分多工存取(code division multiple access; CDMA)、全球行動通訊系統(global system for mobile;GSM)、WiFi(例如802.11),及類似標準中之一或更多者。
計算裝置102可為桌上型電腦、膝上型電腦、平板電腦、媒體放映設備、行動電話裝置、另一類型之計算裝置,或上述各者之任何組合。計算裝置102可包括一或更多個處理器108、觸控螢幕顯示器110,及記憶體112。記憶體112可用以儲存可由處理器108執行以執行多種功能之指令。指令可按指令所執行之功能而經分組到模組中。例如,記憶體可包括媒體放映模組114、螢幕擷取模組116、輸入處理程式模組118、文字提取模組120、文字辨識模組122、上下文決定模組124、使用者喜好設定126,及後續動作模組128。
媒體放映模組114能夠展示(例如播放或顯示)不同類型之媒體,包括視訊檔案、聲訊檔案、文件(例如具有與Microsoft® Word®軟體兼容之格式、便攜式文件格式(portable document format;PDF)、富文字格式(rich text format;RTF)、由網路瀏覽器顯示之頁,或其他文件格式),及其他類型之媒體檔案。在媒體檔案130放映期間,媒體放映模組114可顯示媒體檔案130中所包括之文字或與媒體文件130關連之文字。例如,在視訊檔案包括文字之情況下,當播放視訊檔案時,媒體放映模組114可顯示文字,如視訊檔案之標題或視訊檔案之作者。作為另一實例,在播放聲訊檔案時,媒體放映模組114可顯示文字,如聲訊檔案之名稱、包括聲訊檔案之專輯之名稱、與聲訊檔案關連之音樂家之名稱、與聲訊檔案關連之歌詞、與聲訊檔案關連之其他文字,或上述 各者之任何組合。所顯示之文字中至少一部分可包括在聲訊檔案內或可藉由媒體放映模組114而自伺服器104中之一者中擷取。媒體檔案130可為儲存在記憶體112中之檔案,或為自伺服器104中之一者流經網路106之檔案。
當展示媒體檔案130時,螢幕擷取模組116可藉由媒體放映模組114來擷取正在觸控螢幕顯示器110上顯示之媒體內容之螢幕快照。正在顯示之媒體內容可包括文字。例如,螢幕擷取模組116可產生一或更多個螢幕擷取132。螢幕擷取模組116擷取所顯示之媒體內容的方式可依據媒體檔案130之類型而改變。例如,當媒體檔案130是視訊檔案時,螢幕擷取模組116可使用框取技術以擷取一或更多個視訊框。作為另一實例,當媒體檔案130是文件時,螢幕擷取模組116可使用螢幕擷取技術以自所顯示之文件中擷取一或更多個內容螢幕。
輸入處理程式模組118可接收使用者輸入134,包括由使用者在觸控螢幕顯示器110上執行之手勢。輸入處理程式模組118可偵測及辨識使用者輸入134中包括之手勢。例如,輸入處理程式模組118可偵測及辨識使用觸控螢幕顯示器110輸入之使用者手勢136。回應於對使用者手勢136之偵測,輸入處理程式模組118可命令螢幕擷取模組116自媒體檔案130中由媒體放映模組114正在觸控螢幕顯示器110上展示之部分中擷取螢幕擷取132。
輸入處理程式模組118可產生歷史檔案138,該歷史檔案包括關於已接收哪些使用者手勢及接收該等手勢之時 間的資訊。例如,輸入處理程式模組118可產生每一使用者與每一媒體檔案之互動的歷史檔案。下文中更詳細地描述歷史檔案138。
輸入處理程式模組118可決定與每一使用者手勢136關連之位置資料140。例如,當使用者手勢136是輕敲手勢時,位置資料140可辨識觸控螢幕顯示器110上偵測到使用者手勢136之位置(例如,x及y坐標)。當使用者手勢136是滑動手勢時,位置資料140可辨識觸控螢幕顯示器110上偵測到該使用者手勢136的開始位置及結束位置。當使用者手勢136是輕敲及按住及在按住之同時拖曳之手勢時,位置資料140可辨識觸控螢幕顯示器110上與使用者手勢136關連之媒體檔案130之每一框(或頁)之開始位置及結束位置。
文字提取模組120可自螢幕擷取132中提取文字以作為提取文字影像142。例如,文字提取模組120可使用使用者意向導向文字提取算法以自螢幕擷取132中產生提取文字影像142。文字提取模組120可使用螢幕擷取132及使用者手勢136以作為文字區域之輸入及輸出位置及定界框,該文字區域可包括使用者選定文字、意向文字(例如基於使用者手勢決定使用者意向及基於使用者意向選擇文字)及上下文的文字。對於輕敲及按住及在按住之同時拖曳之手勢而言,文字提取模組120可自影像中提取多行文字,包括跨過多個視訊框或多個文件頁之文字。
組件樹可用以設計高效的使用者意向導向文字提取 算法以自動地提取文字,該組件樹中每一節點表示極值區域(例如風行類型之影像表示方法)。不獨立慮及組件樹之每一節點,或除了獨立慮及每一節點之外,諸如樹之結構資訊、文字行資訊,及使用者意圖之額外資訊亦可用以修整組件樹之非文字節點。例如,當偵測到使用者手勢時,可調整影像之大小。藉由假定白底上為黑字及黑底上為白字,可自經調整大小之影像建立兩個組件樹。可分別修整該兩個組件樹。可藉由將每一樹中之殘存節點(例如在修整中殘存之節點)分組來計算文字定界框。可比較兩個組件樹之結果,及選擇較佳者作為輸出。修整可包括使用比較及幾何形狀資訊進行修整,及使用使用者意向及文字行資訊進行修整。修整步驟可用以修整儘可能多之顯著非文字區域。
文字辨識模組122可採用提取文字影像142作為輸入,及使用OCR產生選定文字144。文字辨識模組122可使位置資料140與螢幕擷取132相關聯以辨識使用者選定之文字,例如選定文字144。例如,位置資料140可與螢幕擷取132相關聯以辨識提取文字142中之部分,該等部分與由使用者手勢136選擇的所顯示之媒體檔案中之部分對應。為進行說明,螢幕擷取132可包括來自視訊之框或文件之頁中之文字。提取文字142可包括與來自視訊之框或文件之頁的文字對應之字。文字辨識模組122可使用位置資料140以辨識來自提取文字142中之選定文字144(例如,在觸控螢幕顯示器110上顯示且由使用者手勢136選擇的文字)。
選定文字144亦可被稱作可動作文字,因為選定文 字144可由後續動作模組128用以執行一或更多個後續動作。後續動作模組128可基於多種資訊執行後續動作。例如,每一使用者可規定使用者喜好設定126(例如,在使用者資料檔中),該使用者喜好設定辨識回應於特定的使用者手勢而執行之特定動作集。為進行說明,使用者喜好設定126可規定:對於特定使用者而言,回應於輕敲手勢而將執行第一動作集,回應於滑動手勢而將執行第二動作集,及對於輕敲及按住及在按住之同時拖曳之手勢則將執行第三動作集。
上下文決定模組124可藉由檢查提取文字142中鄰近於選定文字144之字來決定選定文字144之上下文146。例如,後續模組128可決定選定文字144是常用字,命令上下文決定模組124決定使用者意向,基於使用者意向決定上下文146,及基於選定文字144及上下文146執行後續動作。為進行說明,當檢視針對主題「神經網路」之演示文稿時,使用者可執行輕敲手勢以選擇字「網路」。後續模組128可決定選定文字144(例如「網路」)是常用字,命令上下文決定模組124決定上下文146(例如「神經」),及基於選定文字144及上下文146(例如「神經」及「網路」)執行後續動作。作為另一實例,演示文稿之作者可顯示為「Geoffrey Hinton」。使用者可執行輕敲手勢以選擇字「Geoffrey」。後續模組128可決定選定文字144(例如「Geoffrey」)是常用名,命令上下文決定模組124決定上下文146(例如「Hinton」),及基於選定文字144及上下文146(例如「Hinton」及「Geoffrey」)執行後續動作。在一些情況下,後續模組128可基於上下文 146修正選定文字144及基於修正的選定文字144執行後續動作。
若使用者不具有關連之使用者喜好設定126集,及後續模組128決定無需決定與選定文字144關連之上下文146,則後續模組128可執行一或更多個預設動作148。因此,後續動作模組128可決定待基於選定文字144、上下文146、使用者喜好設定126,或預設動作148中之一或更多者執行之後續動作150。
在決定後續動作150之後,後續動作模組128可執行後續動作150中之一或更多者,及顯示執行該等後續動作150之結果152。後續動作150可包括由計算裝置102執行的動作、由伺服器104執行的動作,或該兩者。例如,後續動作可包括使用儲存在計算裝置102之記憶體112中之字典翻譯選定文字144,然後將譯文發送至由伺服器104之一者所代管之搜尋引擎。結果152可包括譯文及來自搜尋引擎之搜索結果。作為另一實例,後續動作可包括使用由伺服器104之一者所代管之翻譯服務來翻譯選定文字144,接收來自翻譯服務之譯文,然後將譯文發送至由伺服器104之一代管之搜尋引擎。結果152可包括譯文及搜索結果。作為又一實例,結果152可包括使用文字至語音產生器以發出選定文字中一或更多者之語音。文字至語音產生器可為計算裝置102之模組,或由伺服器104之一者所代管之服務。
可以多種方式顯示結果152。例如,結果152可在彈出式窗口中顯示,該彈出式窗口覆蓋正在展示媒體檔案130 之窗口之至少一部分。結果152可在正在展示媒體檔案130之同一窗口中顯示。媒體檔案130可在第一窗口中展示,及結果152可在第二窗口中展示,該第二窗口在第二窗口鄰近處(例如上方、下方、右側,或左側)。結果152向使用者顯示之方式可由使用者喜好設定126規定,或由預設顯示指令集規定。
使用者可以類似於與媒體檔案130互動的方式與結果152之內容互動。例如,結果152可包括含視訊檔案之搜尋結果,該等視訊檔案可藉由選擇統一資源定位器(universal resource locator;URL)而經檢視(例如串流)。回應於對視訊檔案之URL之選擇,媒體放映模組114可啟動與該URL關連之視訊檔案之展示。使用者可輸入額外的使用者手勢以選擇額外的文字,使額外的後續動作得以執行,及顯示額外的結果,等等。作為另一實例,使用者可輸入使用者手勢以選擇結果中之字或詞組,使額外的後續動作得以執行,及顯示額外的結果,等等。
輸入處理程式模組118可將使用者手勢136及與使用者手勢136關連之資訊記錄在歷史檔案138中。例如,當媒體檔案130是視訊檔案或聲訊檔案時,輸入處理程式模組118可記錄使用者手勢136、位置資料140及辨識媒體檔案130中接收到使用者手勢136之時間位置之時間戳記。輸入處理程式模組118可記錄對結果152執行之第一使用者手勢集、對執行第一使用者手勢集之結果執行之第二使用者手勢集,等等。當輸入使用者手勢136時,歷史檔案138可協助使用 者在媒體檔案之放映期間定位時間位置。媒體放映模組114可顯示辨識由使用者輸入之每一使用者手勢之視訊時間線,以使得使用者能夠快速定位媒體檔案130之展示。可單獨地儲存每一使用者及/或每一會話之歷史檔案。使用者可基於每一媒體檔案之選定文字來搜尋每一歷史檔案之內容之索引。歷史檔案138中之每一者可包括高亮顯示之資訊及/或註記。例如,當使用者正在檢視線上課程(例如視訊及/或文件)時,使用者可高亮顯示媒體檔案130中之關鍵字,及/或向關鍵字增添註記。使用者可使用使用者手勢以選擇關鍵字以進行高亮顯示及/或添加註記。因為高亮資訊及/或注記共同儲存在歷史檔案中,因此使用者可搜尋高亮文字及/或注記及找到對應視訊及先前執行之動作(例如自動執行之後續動作及/或由使用者執行之動作)之資訊。
由此,選擇由媒體檔案顯示之文字之一部分之使用者手勢可使得自動執行一或更多個後續動作(例如在沒有與人互動之情況下)。例如,使用者可使用媒體放映模組114檢視媒體檔案130。使用者可在觸控螢幕顯示器110上執行使用者手勢136。回應於對使用者手勢136之偵測,可決定使用者手勢136之位置資料140及可產生一或更多個螢幕擷取132。可自螢幕擷取132中提取提取文字142。螢幕擷取132及位置資料140可用以辨識選定文字144。在一些情況下,可決定選定文字144之上下文146及/或可決定與使用者關連之使用者喜好設定126。可基於選定文字144、上下文146、使用者喜好設定126,或預設動作148中之一或更多者來執行後 續動作150。可在觸控螢幕顯示器110上自動地顯示後續動作150之結果152。以此方式,在檢視媒體檔案時,使用者可在觸控螢幕上執行使用者手勢及使多個動作得以自動執行,及使結果自動地顯示。例如,正在檢視諸如視訊或文件之技術演示文稿之使用者可使用使用者手勢以選擇技術演示文稿中顯示之不同的字或詞組。回應於使用者手勢,可執行多個動作,及自動向使用者顯示結果。例如,回應於使用者手勢,使用者可自動獲得翻譯及/或搜尋結果。
第2圖是根據一些實施方式之說明性計算裝置200,該計算裝置具有觸控螢幕顯示器使用者介面,該介面圖示接收到輕敲手勢。可提供媒體播放器介面202以使得使用者能夠檢視媒體檔案,如媒體檔案130。
回應於使用者在觸控螢幕顯示器110上執行輕敲手勢204,計算裝置102可決定選定文字144。例如,在第2圖中,使用者可在字「Geoffrey」之至少一部分之處或鄰近處執行輕敲手勢204。回應於對輕敲手勢204之偵測,計算裝置102可辨識選定文字144。例如,計算裝置102可決定與輕敲手勢204關連之位置資料及執行螢幕擷取。計算裝置102可自螢幕擷取中提取文字(例如使用OCR)及基於位置資料及提取文字決定選定文字144。
計算裝置102可基於選定文字144執行一或更多個動作及在窗口208中提供結果152。例如,結果152可包括對應於選定文字144之翻譯210、基於選定文字144及/或翻譯210之搜尋結果212,及/或任何其他後續動作之結果。
在一些情況下,可使用兩個互動模型。當使用者正在檢視媒體檔案130時,在接收到使用者手勢之情況下可使用第一互動模型。當使用者在檢視媒體檔案130之同時執行使用者手勢時,可執行一或更多個預設動作及該等預設動作之結果可在窗口208中顯示。第二互動模型可用於在檢視窗口208中之預設動作結果之同時接收到的使用者手勢。例如,第一互動模型可包括將選定文字自來源語言翻譯至目標語言,及使用譯文執行搜尋。第二互動模型可包括使用選定文字執行搜尋。在此實例中,選定文字之翻譯在第一互動模型中執行,而非在第二互動模型中執行。可使用使用者資料檔、使用者喜好設定檔案,或類似的使用者特定客製化技術規定第一互動模型及第二互動模型。
由此,回應於輕敲手勢204,計算裝置可自動選擇字(例如「Geoffrey」)作為選定文字144。計算裝置102可使用選定文字144自動地執行一或更多個後續動作。計算裝置102可在窗口208中自動地顯示後續動作之結果152。
第3圖是根據一些實施方式之說明性計算裝置300,該計算裝置具有觸控螢幕顯示器使用者介面,該介面圖示接收到滑動手勢。回應於使用者在觸控螢幕顯示器110上執行滑動手勢302,計算裝置102可決定選定文字144。例如,在第3圖中,使用者可在詞組「Geoffrey Hinton」之至少一部分之處或鄰近處執行滑動手勢302。
回應於對滑動手勢302之偵測,計算裝置102可辨識選定文字144。例如,計算裝置102可決定與滑動手勢302 關連之位置資料(例如,開始位置及結束位置)及執行螢幕擷取。例如,若媒體檔案130包括視訊資料,則視訊擷取器模組可擷取視訊資料中之一或更多個框。計算裝置102可自螢幕擷取中提取文字(例如使用OCR)及基於位置資料及提取文字決定選定文字144。
計算裝置102可基於選定文字144執行一或更多個動作及在窗口208中提供結果152。例如,結果152可包括對應於選定文字144之翻譯、基於選定文字144及/或翻譯之搜尋結果,及/或任何其他後續動作之結果。
如前文所提及,可使用兩個互動模型。當使用者正在檢視媒體檔案130時,在接收到使用者手勢之情況下可使用第一互動模型。當使用者在檢視媒體檔案130之同時執行使用者手勢時,可執行一或更多個預設動作及該等預設動作之結果可在窗口208中顯示。第二互動模型可用於在檢視窗口208中之預設動作結果之同時接收到的使用者手勢。
因此,回應於滑動手勢302,計算裝置可自動選擇詞組(例如「Geoffrey Hinton」)作為選定文字144。計算裝置102可使用選定文字144自動地執行一或更多個後續動作。計算裝置102可在窗口208中自動地顯示後續動作之結果152。
第4圖是根據一些實施方式之說明性計算裝置400,該計算裝置具有觸控螢幕顯示器使用者介面,該介面圖示接收到輕敲及按住手勢。回應於使用者在觸控螢幕顯示器110上執行輕敲及按住手勢402,計算裝置102可決定選定文 字144。例如,在第4圖中,使用者可在字「Fully」之至少一部分之處或鄰近處執行輕敲及按住手勢402。回應於對輕敲及按住手勢402之偵測,在一些情況下,計算裝置102可暫停媒體檔案130之放映(或顯示)以使得使用者能夠選擇在多個框(或多個頁)中所顯示之文字。
計算裝置102可等待預定時段以接收在按住之同時拖曳之手勢404。若使用者未在預定時段內輸入在按住之同時拖曳之手勢404,則計算裝置102可將輕敲及按住手勢402視為輕敲手勢204。若使用者在預定時段內輸入在按住之同時拖曳之手勢404,則計算裝置102可使媒體檔案130之展示前進(例如顯示額外頁或放映額外框)直至在按住之同時拖曳之手勢404停止,例如,直至使用者釋放按住。
計算裝置102可決定與輕敲及按住手勢402及在按住之同時拖曳之手勢404關連之位置資料(例如,一或更多個開始位置及結束位置)。計算裝置102可擷取媒體檔案130之一或更多個螢幕擷取。例如,若計算裝置102在按住之同時拖曳之手勢404的期間使媒體檔案130之展示前進了,則計算裝置102可擷取多個螢幕之螢幕快照。多個螢幕擷取可包括發生輕敲及按住手勢402之初始螢幕及額外的螢幕,最多及包括在按住之同時拖曳之手勢404結束(例如,停止拖曳或釋放按住)之最終螢幕。計算裝置102可自螢幕擷取中提取文字(例如使用OCR)及基於手勢402及手勢404之位置資料及提取文字決定選定文字144。
計算裝置102可基於選定文字144執行一或更多個 動作及在窗口208中提供結果152。例如,結果152可包括對應於選定文字144之翻譯210、基於選定文字144及/或翻譯210之搜尋結果212,及/或任何其他後續動作之結果。
由此,回應於手勢402及手勢404,計算裝置可自動選擇多個字(例如「完全循環網路」)作為選定文字144。在一些情況下,選定文字144可跨過多個螢幕,例如,多個視訊框、多個文件頁,或類似物。計算裝置102可使用選定文字144自動地執行一或更多個後續動作。計算裝置102可在窗口208中自動地顯示後續動作之結果152。
示例性流程
在第5圖、第6圖及第7圖之流程圖中,每一方塊表示可在硬體、軟體,或該兩者之組合中實施之一或更多個操作。在軟體情景中,方塊表示在由一或更多個處理器執行時使處理器執行所列舉之操作的電腦可執行指令。一般而言,電腦可執行指令包括執行特定功能或實施特定抽象資料類型之常式、程式、物件、模組、組件、資料結構等。本文描述方塊之次序並非旨在被視作限制,及任何數目之所述操作可以任何次序及/或並行組合以實施流程。為進行論述,參考如上所述之架構100、200、300,及400描述流程500、600,及700,但其他模型、框架、系統及環境亦可實施該等流程。
第5圖是根據一些實施方式之示例性流程500之流程圖,該示例性流程500包括偵測輕敲或滑動手勢。流程500可(但並非必須)由第1圖、第2圖、第3圖或第4圖中之計算裝置102執行。
在502中,可偵測到使用者手勢(例如,輕敲手勢或滑動手勢)。例如,在第1圖中,輸入處理程式模組118可偵測使用者手勢136。使用者手勢136可包括第2圖中之輕敲手勢204或第3圖中之滑動手勢302。
在504中,可產生在顯示器上顯示之媒體檔案之一部分之螢幕擷取。例如,在第1圖中,回應於對使用者手勢136之偵測,輸入處理程式模組118可命令螢幕擷取模組116產生螢幕擷取132,該螢幕擷取132擷取在觸控螢幕顯示器110上顯示之媒體檔案130中至少一部分。
在506中,可決定與輕敲手勢或滑動手勢關連之位置資料。例如,在第1圖中,輸入處理程式118可決定與使用者手勢136關連之位置資料140。對於第2圖中之輕敲手勢204而言,位置資料140可包括觸控螢幕110上發生輕敲手勢204之位置之x及y坐標。對於第3圖中之滑動手勢302而言,位置資料140可包括觸控螢幕110上之滑動手勢302之位置之開始坐標及結束坐標。
在508中,可自螢幕擷取中提取文字,及可使用位置資料決定選定文字。例如,在第1圖中,文字提取模組120可使用OCR而自螢幕擷取132中產生提取文字142。文字辨識模組122可藉由使位置資料140與螢幕擷取132及提取文字142相關聯來決定選定文字144。
在510中,可決定使用者喜好設定。例如,在第1圖中,後續動作模組128可使用使用者喜好設定126來決定使用者之喜好設定。
在512中,可決定與選定文字關連之上下文。例如,在第1圖中,藉由檢查緊鄰選定文字144之字,可自提取文字142決定與選定文字144關連之上下文146。
在514中,可自動地執行一或更多個後續動作。在516中,可顯示執行該一或更多個後續動作之結果。例如,在第1圖中,後續動作模組128可自動地執行後續動作150及自動地顯示結果152。可基於選定文字144、上下文146、預設動作148,或使用者喜好設定126中之一或更多者來選擇後續動作150。
若使用者在檢視結果時執行使用者手勢,則流程可返回至502。例如,使用者可執行使用者手勢以自所顯示結果中選擇文字。計算裝置102可偵測使用者手勢,執行螢幕擷取,自擷取螢幕中提取文字,決定與使用者手勢關連之位置資料,及使位置資料與提取文字相關聯以決定選定文字。計算裝置可使用選定文字執行一或更多個額外的後續動作,及顯示執行該等額外動作之額外結果。使用者在檢視額外結果等類似物之同時可執行另一使用者手勢,從而獲得嵌套水平的後續動作及結果。
由此,在媒體檔案之展示期間,使用者手勢可使媒體檔案所顯示之諸如字或詞組之文字得以選擇。使用選定文字及向使用者自動顯示之結果,可自動地執行多個動作。以此方式,使用者可輕鬆獲得關於在媒體檔案之展示期間顯示之字或詞組的額外資訊。
第6圖是根據一些實施方式之示例性流程600之流 程圖,該示例性流程600包括偵測輕敲及按住手勢。流程600可(但並非必須)由第1圖、第2圖、第3圖或第4圖之計算裝置102執行。
在602中,可在媒體檔案之展示期間偵測到輕敲及按住手勢。例如,在第1圖中,輸入處理程式模組118可偵測包括使用者手勢136之使用者輸入134。使用者手勢136可包括第4圖之輕敲及按住手勢402。
在604中,媒體檔案之展示(例如,放映)可暫停。在606中,可擷取初始螢幕。例如,在第1圖中,回應於決定使用者手勢136是輕敲及按住手勢(例如第4圖中之輕敲及按住手勢402),輸入處理程式模組118可命令媒體放映模組114暫停媒體檔案130之放映。輸入處理程式模組118可命令螢幕擷取模組116擷取發生輕敲及按住手勢之初始螢幕。
在608中,可偵測額外的使用者輸入(例如,在按住之同時拖曳之手勢)。在610中,可擷取額外的螢幕。例如,在第1圖中,輸入處理程式模組118可偵測到使用者手勢136包括在按住之同時拖曳之手勢404。作為回應,輸入處理程式模組118可命令媒體放映模組114展示媒體檔案130之額外部分,直至在按住之同時拖曳之手勢已完成(例如直至拖曳已停止或按住被釋放)。在媒體放映模組114在展示媒體檔案130之額外部分之同時,輸入處理程式模組118可命令螢幕擷取模組116擷取額外螢幕,直至在按住之同時拖曳之手勢已完成。
在612中,可自螢幕擷取提取文字,及可決定位置 資料。在614中,可基於螢幕擷取及位置資料決定選定文字。例如,在第1圖中,文字提取模組120可自擷取螢幕(例如初始螢幕及額外螢幕)中提取文字。輸入處理程式模組118可決定與輕敲及按住手勢及在按住之同時拖曳之手勢關連之位置資料140。文字辨識模組122可基於螢幕擷取132、位置資料140或提取文字142中之一或更多者來決定選定文字144。
在616中,可決定與選定文字關連之上下文。在一些情況下,如在選定文字144有歧義或為常出現字時,上下文決定模組124可決定上下文146。上下文146可包括提取文字142之一或更多個部分,該等部分鄰近於選擇文字144。
在618中,可自動地執行一或更多個後續動作。在620中,可顯示該等後續動作之結果。例如,在第1圖中,後續動作模組128可自動執行後續動作150及自動地顯示結果152。可基於選定文字144、上下文146、預設動作148,或使用者喜好設定126中之一或更多者來選擇後續動作150。
若使用者在檢視結果時執行使用者手勢,則流程可返回至602。例如,使用者可執行使用者手勢以自所顯示結果中選擇文字。計算裝置102可偵測使用者手勢,執行螢幕擷取,自擷取螢幕中提取文字,決定與使用者手勢關連之位置資料,及使位置資料與提取文字相關聯以決定選定文字。計算裝置可使用選定文字執行一或更多個額外的後續動作,及顯示執行該等額外動作之額外結果。使用者在檢視額外結果等類似物之同時可執行另一使用者手勢,從而獲得嵌套水平 之後續動作及結果。
由此,在媒體檔案之展示期間,使用者手勢可使由媒體檔案顯示諸如詞組之文字得以選擇。詞組可跨過媒體檔案之多個頁(或框)。使用選定文字,及向使用者自動顯示之結果,可自動地執行多個動作。以此方式,使用者可輕鬆獲得關於在媒體檔案之展示期間顯示之詞組的額外資訊。
示例性計算裝置及環境
第7圖圖示計算裝置700及環境之示例性配置,該計算裝置及環境可用以實施本文所述之模組及功能。例如,計算裝置700可表示計算裝置102或伺服器104中之一或更多者。計算裝置700可包括一或更多個處理器702、記憶體704、一或更多個通信介面706、顯示器裝置708(例如,第1圖之觸控螢幕顯示器110)、其他輸入/輸出(I/O)裝置710,及一或更多個大容量儲存裝置712,上述各者能夠經由系統匯流排714或其他適合之連接彼此通信。
處理器702可包括單個處理單元或數個處理單元,所有該等處理單元可包括單一或多個計算單元或多個核心。處理器702可實施為一或更多個微處理器、微電腦、微控制器、數位信號處理器、中央處理單元、狀態機、邏輯電路系統,及/或基於操作指令操縱信號之任何裝置。除了其他能力之外,處理器702可經配置以取得及執行儲存在記憶體704、大容量儲存裝置712,或其他電腦可讀取媒體中之電腦可讀取指令。
記憶體704及大容量儲存裝置712是用於儲存指令 之電腦儲存媒體之實例,該等指令由處理器702執行以執行上述多個功能。例如,記憶體704一般可同時包括揮發性記憶體及非揮發性記憶體(例如,隨機存取記憶體(random access memory;RAM)、唯讀記憶體(read-only memory;ROM),或類似記憶體)。此外,大容量儲存裝置712一般可包括硬碟驅動器、固態驅動器、可移動媒體,包括外部及可移動驅動器、記憶卡、快閃記憶體、軟碟、光碟(例如,緊密光碟(Compact Disk;CD)、數位視訊光碟(Digital Versatile Disk;DVD))、儲存陣列、網路附加儲存器、儲存區域網路,或類似物。記憶體704和大容量儲存裝置712在本文中可被共同稱作記憶體或電腦儲存媒體,及可為能夠將電腦可讀取指令、處理器可執行程式指令作為電腦程式碼儲存之媒體,該電腦程式碼可由處理器702執行,處理器702為經配置以用於執行本文中之實施中所述之操作及功能之特定機器。
計算裝置700亦可包括一或更多個通信介面706以用於諸如經由網路、直接連接等方式與其他裝置交換資料,如上所論述。通信介面706可有助於多種網路及協定類型內之通信,該等網路及協定類型包括有線網路(例如,局域網(local area network;LAN)、電纜,等)及無線網路(例如,無線局域網(wireless local area network;WLAN)、蜂巢網路、衛星,等等)、網際網路,及類似物。通信介面706亦可提供與外部儲存器(未圖示)之通信,如在儲存陣列、網路附加儲存器、儲存局域網等中通信。
在一些實施方式中可包括諸如監視器之顯示器裝置 708以用於向使用者顯示資訊及影像。其他I/O裝置710可為接收來自使用者之多種輸入及向使用者提供多種輸出之裝置,及可包括鍵盤、遙控器、滑鼠、印表機、聲訊輸入/輸出裝置,等等。
記憶體704可包括根據本文所述之實施方式用於回應於在媒體檔案展示期間接收到的使用者手勢而自動執行後續動作之模組及組件。在圖示之實例中,記憶體704包括媒體放映模組114、螢幕擷取模組116、輸入處理程式模組118、文字提取模組120、文字辨識模組122、上下文決定模組124,及後續動作模組128。
記憶體704亦可包括本文所述之其他資料及資料結構,如媒體檔案130、使用者輸入134、使用者喜好設定126及結果152。記憶體704可進一步包括一或更多個其他模組716,如作業系統、驅動程式、通信軟體,等等。記憶體704亦可包括其他資料718,如在執行上述功能之同時儲存之資料,及由其他模組716使用之資料。
本文所述之示例性系統及計算裝置僅為適用於一些實施方式之實例,及並非旨在暗示任何針對可實施本文所述之流程、組件,及特徵的環境、架構,及框架之使用或功能範疇的限制。由此,本文中之實施方式可在眾多環境或架構中操作,及可在通用及專用計算系統或具有處理能力之其他裝置中得以實施。一般情況下,參考附圖而描述之任何功能可藉由使用軟體、硬體(例如固定邏輯電路系統),或該等實施之組合而經實施。如本文中使用之術語「模組」、「機 構」,或「組件」一般表示軟體、硬體,或可經配置以實施規定功能之軟體與硬體之組合。例如,在軟體實施方式之情況下,術語「模組」、「機構」,或「組件」可表示程式碼(及/或聲明類型的指令),該程式碼在處理裝置或裝置(例如中央處理單元(center processing unit;CPU)或處理器)上經執行時執行規定的任務或操作。程式碼可儲存在一或更多個電腦可讀取儲存裝置中或在其他電腦儲存裝置中。由此,本文所述之流程、組件,及模組可由電腦程式產品實施。
如本文中所使用,「電腦可讀取媒體」包括電腦儲存媒體但不包括通信媒體。電腦儲存媒體包括以任何方法或技術經實施以用於儲存資訊(如電腦可讀取指令、資料結構、程式模組,或其他資料)之揮發性及非揮發性媒體、可移動及非可移動媒體。電腦儲存媒體包括但不限於隨機存取記憶體(random access memory;RAM)、唯讀記憶體(read-only memory;ROM)、電可擦可程式化唯讀記憶體(electrically erasable programmable read only memory;EEPROM)、快閃記憶體或其他記憶體技術、緊密光碟唯讀記憶體(Compact Disk-Read Only Memory;CD-ROM)、數位通用光碟(Digital Versatile Disk;DVD)或其他光學儲存器、磁帶盒、磁帶、磁碟儲存器或其他磁性儲存裝置,或可用以儲存資訊以供計算裝置存取之任何其他非傳輸媒體。
相反,通信媒體可包含電腦可讀取指令、資料結構、程式模組,或位於調變資料信號中之其他資料,如載波。如本文中所定義,電腦儲存媒體不包括通信媒體。
此外,本揭示案提供多個示例性實施,如附圖中之描述及圖示。然而,本揭示案並非限定於本文中描述及圖示之實施方式,而是可延伸至其他實施,如彼等熟習該項技術者已知或將已知。本說明書中,對「一個實施方式」、「此實施方式」、「該等實施方式」,或「一些實施方式」之引用意謂著所描述之特定特徵、結構,或特性被納入至少一個實施方式中,及該等詞組在本說明書中多個位置之出現並非必須全部係指相同實施。
結論
儘管已使用特定於結構特徵及/或方法操作之語言描述標的物,但所附之申請專利範圍中定義之標的物並非限定於上述特定特徵或操作。相反,上述之特定特徵及操作作為實施該專利申請範圍之實例形式得以揭示。本揭示案旨在涵蓋所揭示實施之任何及全部改編或變動,及隨後的專利申請範圍將不被視作限定於本說明書中所揭示之特定實施。
102‧‧‧計算裝置
104‧‧‧伺服器
106‧‧‧網路
108‧‧‧處理器
110‧‧‧觸控螢幕顯示器
112‧‧‧記憶體
114‧‧‧媒體放映模組
116‧‧‧螢幕擷取模組
118‧‧‧輸入處理程式模組
120‧‧‧文字提取模組
122‧‧‧文字辨識模組
124‧‧‧上下文決定模組
126‧‧‧使用者喜好設定
128‧‧‧後續動作模組
130‧‧‧媒體檔案
132‧‧‧螢幕擷取
134‧‧‧使用者輸入
136‧‧‧使用者手勢
138‧‧‧歷史檔案
140‧‧‧位置資料
142‧‧‧提取文字影像
144‧‧‧選定文字
146‧‧‧上下文
148‧‧‧預設動作
150‧‧‧後續動作
152‧‧‧結果

Claims (20)

  1. 一種方法,該方法包括以下步驟:受一或更多個處理器之控制,該等處理器配置有指令,該等指令可由該一或更多個處理器執行以執行操作,該等操作包括:在一觸控螢幕顯示器上啟動一媒體檔案之展示,該媒體檔案包括視訊;偵測在該觸控螢幕顯示器上執行之一使用者手勢;決定由該使用者手勢選定之文字;及至少部分地基於由該使用者手勢選定之該文字來自動執行一或更多個後續動作。
  2. 如請求項1所述之方法,其中決定由該使用者手勢選定之該文字之步驟包括以下步驟:基於該媒體檔案之至少一部分以產生一或更多個螢幕擷取;自該一或更多個螢幕擷取中提取文字;決定與該使用者手勢關連之位置資料;及基於將該提取文字與該位置資料相關聯來決定由該使用者手勢選定之該文字。
  3. 如請求項1所述之方法,其中在至少部分地基於由該使用者手勢選定之該文字來自動執行該一或更多個後續動作的步驟之前,該等操作進一步包括以下步驟: 決定與該使用者關連之一或更多個使用者喜好設定;及基於該一或更多個使用者喜好設定選擇該一或更多個後續動作。
  4. 如請求項1所述之方法,其中在至少部分地基於由該使用者手勢選定之該文字來自動執行該一或更多個後續動作的步驟之前,該等操作進一步包括以下步驟:決定一或更多個預設動作;及基於該一或更多個預設動作選擇該一或更多個後續動作。
  5. 如請求項1所述之方法,其中在至少部分地基於由該使用者手勢選定之該文字來自動執行該一或更多個後續動作的步驟之前,該等操作進一步包括以下步驟:決定與由該使用者手勢選定之該文字關連之一上下文;及至少部分地基於由該使用者手勢選定之該文字及該上下文來自動執行該一或更多個或更多個後續動作。
  6. 如請求項5所述之方法,其中決定與由該使用者手勢選定之該文字關連之該上下文的步驟包括以下步驟:基於該選定文字決定一使用者意向;及 在自該一或更多個螢幕擷取提取之文本中,基於該使用者意向辨識與由該使用者手勢選定之該文字關連之額外文字。
  7. 一種電腦可讀取媒體,該媒體儲存指令,該等指令可由一或更多個處理器執行以執行操作,該等操作包括以下:在一觸控螢幕顯示器上正在展示一視訊檔案之一或更多個部分之同時,偵測輸入至該觸控螢幕顯示器之一使用者手勢;基於該使用者手勢辨識選定文字;及至少部分地基於該選定文字而自動執行至少一個後續動作。
  8. 如請求項7所述之電腦可讀取媒體,其中辨識選定文字的步驟包括以下步驟:回應於決定該使用者手勢包括一輕敲手勢而決定該選定文字包括一字。
  9. 如請求項7所述之電腦可讀取媒體,其中辨識選定文字的步驟包括以下步驟:回應於決定該使用者手勢包括一滑動手勢而決定該選定文字包括兩個或兩個以上之字。
  10. 如請求項7所述之電腦可讀取媒體,其中: 回應於決定該使用者手勢包括一輕敲及按住及在按住之同時拖曳之手勢而決定該選定文字包括複數個字,該等字跨過一個以上之螢幕。
  11. 如請求項7所述之電腦可讀取媒體,其中:一輕敲和按住手勢暫停該視訊檔案之展示;及在該輕敲及按住手勢之後緊接著的一在按住之同時拖曳之手勢產生對該視訊檔案之一或更多個框中之文字之選擇。
  12. 如請求項7所述之電腦可讀取媒體,其中該至少一個後續動作包括以下動作中之一或更多者:將該選定文字自一來源語言翻譯至一目標語言以產生譯文;向一搜尋引擎提交一第一搜尋查詢,該查詢包括該選定文字;或向該搜尋引擎提交一第二搜尋查詢,該查詢包括該譯文。
  13. 如請求項7所述之電腦可讀取媒體,進一步包括:在一彈出式窗口中顯示自動執行該至少一個後續動作之結果,該彈出式窗口至少部分覆蓋該媒體檔案之該一或更多個部分,該媒體檔案之該一或更多個部分正在該觸控螢幕顯示器上展示。
  14. 一種計算裝置,包括: 一觸控螢幕顯示器;一或更多個處理器;及一或更多個電腦可讀取儲存媒體,該等媒體儲存指令,該等指令可由該一或更多個處理器執行以執行操作,該等操作包括以下步驟:播放一媒體檔案,該媒體檔案包括視訊;偵測在該視訊播放之同時在該觸控螢幕顯示器上執行之一使用者手勢;在該視訊之一框中基於該使用者手勢而辨識選定文字;及基於該選定文字而自動執行一後續動作。
  15. 如請求項14所述之計算裝置,其中該使用者手勢包括一輕敲手勢、一滑動手勢,或一輕敲及按住及在按住之同時拖曳之手勢中之一者。
  16. 如請求項14所述之計算裝置,進一步包括自一伺服器經由一網路接收作為一流之該媒體檔案。
  17. 如請求項14所述之計算裝置,其中在該視訊之該框中基於該使用者手勢而辨識選定文字的步驟包括以下步驟:決定與該使用者手勢關連之位置資料,該位置資料辨識該使用者手勢相對於該觸控螢幕顯示器之一位置;使用光學字符識別自該視訊之該框提取文字;及 使該提取文字與該位置資料相關聯以辨識該選定文字。
  18. 如請求項14所述之計算裝置,其中基於該選定文字而自動執行該後續動作的步驟包括以下步驟:基於鄰近於該選定文字之該提取文字之部分來決定與該選定文字關連之一上下文;修正該選定文字以產生包括該上下文之修正文字;及基於該修正文字而執行該後續動作。
  19. 如請求項14所述之計算裝置,該等操作進一步包括以下步驟:顯示因基於該選定文字而自動執行該後續動作所導致之結果;接收選擇該等結果中之一部分之一額外使用者手勢;基於該等結果之該選定部分來執行一額外後續動作;及顯示因執行該額外後續動作而導致之額外結果。
  20. 如請求項14所述之計算裝置,該等操作進一步包括以下步驟:回應於在該視訊播放之同時偵測到在該觸控螢幕顯示器上執行之該使用者手勢,決定與正在播放之該視訊之一當前部分關連之一時間碼;及將該使用者手勢及該時間碼儲存在與一使用者關連之一歷史檔案中。
TW103128323A 2013-09-27 2014-08-18 顯示於觸控螢幕上的可動作內容 TW201523426A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US14/040,443 US9329692B2 (en) 2013-09-27 2013-09-27 Actionable content displayed on a touch screen

Publications (1)

Publication Number Publication Date
TW201523426A true TW201523426A (zh) 2015-06-16

Family

ID=51842761

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103128323A TW201523426A (zh) 2013-09-27 2014-08-18 顯示於觸控螢幕上的可動作內容

Country Status (6)

Country Link
US (3) US9329692B2 (zh)
EP (1) EP3050312B1 (zh)
KR (3) KR102238809B1 (zh)
CN (1) CN105580384B (zh)
TW (1) TW201523426A (zh)
WO (1) WO2015048047A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI676931B (zh) * 2015-10-05 2019-11-11 香港商極刻科技(香港)控股有限公司 一種於透過虛擬鍵盤輸入內容至一應用程式時提供一服務的方法

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251144B2 (en) 2011-10-19 2016-02-02 Microsoft Technology Licensing, Llc Translating language characters in media content
US9329692B2 (en) 2013-09-27 2016-05-03 Microsoft Technology Licensing, Llc Actionable content displayed on a touch screen
US10511580B2 (en) 2014-03-31 2019-12-17 Monticello Enterprises LLC System and method for providing a social media shopping experience
US11004139B2 (en) 2014-03-31 2021-05-11 Monticello Enterprises LLC System and method for providing simplified in store purchases and in-app purchases using a use-interface-based payment API
US11080777B2 (en) 2014-03-31 2021-08-03 Monticello Enterprises LLC System and method for providing a social media shopping experience
US9824079B1 (en) 2014-07-11 2017-11-21 Google Llc Providing actions for mobile onscreen content
KR20160021524A (ko) * 2014-08-18 2016-02-26 엘지전자 주식회사 이동 단말기 및 이의 제어방법
US9965559B2 (en) * 2014-08-21 2018-05-08 Google Llc Providing automatic actions for mobile onscreen content
KR102411890B1 (ko) * 2014-09-02 2022-06-23 삼성전자주식회사 컨텐츠를 처리하는 방법 및 이를 위한 전자 장치
CN105786930B (zh) * 2014-12-26 2019-11-26 北京奇虎科技有限公司 基于触摸交互的搜索方法及装置
US10565993B2 (en) 2015-01-30 2020-02-18 Disney Enterprises, Inc. Enhancing group decisions within social messaging applications
US11334228B1 (en) * 2015-03-30 2022-05-17 Evernote Corporation Dynamic targeting of preferred objects in video stream of smartphone camera
US9703541B2 (en) 2015-04-28 2017-07-11 Google Inc. Entity action suggestion on a mobile device
US10015364B2 (en) * 2015-05-11 2018-07-03 Pictureworks Pte Ltd System and method for previewing digital content
GB2541552B (en) * 2015-05-11 2021-10-13 Pictureworks Pte Ltd System and method for previewing digital content
US20170024405A1 (en) * 2015-07-24 2017-01-26 Samsung Electronics Co., Ltd. Method for automatically generating dynamic index for content displayed on electronic device
US10739962B1 (en) * 2015-08-24 2020-08-11 Evernote Corporation Restoring full online documents from scanned paper fragments
US10970646B2 (en) 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content
US10178527B2 (en) 2015-10-22 2019-01-08 Google Llc Personalized entity repository
US10055390B2 (en) 2015-11-18 2018-08-21 Google Llc Simulated hyperlinks on a mobile device based on user intent and a centered selection of text
CN108476164B (zh) 2015-12-21 2021-10-08 谷歌有限责任公司 在消息传送应用中自动地提供机器人服务的方法
CN108781175B (zh) 2015-12-21 2021-09-21 谷歌有限责任公司 用于消息交换题绪的自动建议的方法、介质及系统
US20170195736A1 (en) 2015-12-31 2017-07-06 Opentv, Inc. Systems and methods for enabling transitions between items of content
KR101811719B1 (ko) * 2016-02-11 2017-12-22 삼성전자주식회사 컨텐트를 제공하는 디바이스를 제어하는 방법, 그 디바이스 및 서버
CN107224720B (zh) * 2016-03-25 2019-04-30 网易(杭州)网络有限公司 拖拽式管理队伍的方法、装置及触控设备
US11108767B2 (en) * 2016-04-21 2021-08-31 Tharmalingam Satkunarajah Apparatus and system for obtaining and encrypting documentary materials
US10229187B2 (en) 2016-05-23 2019-03-12 International Business Machines Corporation System for determination of automated response follow-up
US10229189B2 (en) 2016-05-23 2019-03-12 International Business Machines Corporation System for generation of automated response follow-up
US10254935B2 (en) * 2016-06-29 2019-04-09 Google Llc Systems and methods of providing content selection
US10867386B2 (en) * 2016-06-30 2020-12-15 Microsoft Technology Licensing, Llc Method and apparatus for detecting a salient point of a protuberant object
US10049087B2 (en) * 2016-07-19 2018-08-14 International Business Machines Corporation User-defined context-aware text selection for touchscreen devices
US10387461B2 (en) 2016-08-16 2019-08-20 Google Llc Techniques for suggesting electronic messages based on user activity and other context
US10409487B2 (en) 2016-08-23 2019-09-10 Microsoft Technology Licensing, Llc Application processing based on gesture input
CN106339160A (zh) * 2016-08-26 2017-01-18 北京小米移动软件有限公司 浏览交互处理方法及装置
US10547574B2 (en) 2016-09-20 2020-01-28 Google Llc Suggested responses based on message stickers
US10015124B2 (en) 2016-09-20 2018-07-03 Google Llc Automatic response suggestions based on images received in messaging applications
US10511450B2 (en) 2016-09-20 2019-12-17 Google Llc Bot permissions
CN106484266B (zh) * 2016-10-18 2020-02-21 北京字节跳动网络技术有限公司 一种文本处理方法及装置
US10535005B1 (en) 2016-10-26 2020-01-14 Google Llc Providing contextual actions for mobile onscreen content
CN106569682B (zh) * 2016-10-31 2020-08-21 南京飞米农业科技有限公司 触摸屏显示内容选择装置和方法
US10416846B2 (en) 2016-11-12 2019-09-17 Google Llc Determining graphical element(s) for inclusion in an electronic communication
US11237696B2 (en) 2016-12-19 2022-02-01 Google Llc Smart assist for repeated actions
CN108279828A (zh) * 2016-12-30 2018-07-13 北京搜狗科技发展有限公司 一种启动应用程序的方法、装置和终端
WO2018212822A1 (en) 2017-05-16 2018-11-22 Google Inc. Suggested actions for images
CN107256109B (zh) * 2017-05-27 2021-03-16 北京小米移动软件有限公司 信息显示方法、装置及终端
US10404636B2 (en) 2017-06-15 2019-09-03 Google Llc Embedded programs and interfaces for chat conversations
US10348658B2 (en) 2017-06-15 2019-07-09 Google Llc Suggested items for use with embedded applications in chat conversations
US10936895B2 (en) 2017-07-26 2021-03-02 Vmware, Inc. Managing camera actions
CN107864273A (zh) * 2017-10-26 2018-03-30 珠海市魅族科技有限公司 一种信息获取方法、装置、计算机装置及存储介质
FR3074938B1 (fr) * 2017-12-08 2019-12-27 Sagemcom Broadband Sas Procede d'interaction avec un sous-titre affiche sur un ecran de television, dispositif, produit-programme d'ordinateur et support d'enregistrement pour la mise en œuvre d'un tel procede
CN109917988B (zh) * 2017-12-13 2021-12-21 腾讯科技(深圳)有限公司 选中内容显示方法、装置、终端及计算机可读存储介质
US10891526B2 (en) 2017-12-22 2021-01-12 Google Llc Functional image archiving
KR20190102587A (ko) * 2018-02-26 2019-09-04 엘지전자 주식회사 이동 단말기 및 그 동작방법
US11392630B2 (en) 2018-04-06 2022-07-19 Microsoft Technology Licensing, Llc Presenting a summary of components in a file
US10567436B2 (en) * 2018-04-16 2020-02-18 Honeywell International Inc. Recording remote access actions in video files
US11589107B2 (en) * 2019-08-09 2023-02-21 Outlayr, Inc. Systems and methods to determine a machine-readable optical code based on screen-captured video
US11062100B1 (en) 2019-08-09 2021-07-13 Outlayr, Inc. Systems and methods to determine a machine-readable optical code based on screen-captured video
KR20210045891A (ko) * 2019-10-17 2021-04-27 삼성전자주식회사 전자 장치 및 전자 장치의 화면 캡쳐 운용 방법
US11774940B2 (en) * 2021-03-29 2023-10-03 Rockwell Automation Technologies, Inc. Redundant touchless inputs for automation system
US11526685B1 (en) 2021-06-16 2022-12-13 Outlayr, Inc. Systems and methods to determine a machine-readable optical code based on a stored screen-captured image

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415307B2 (en) * 1994-10-24 2002-07-02 P2I Limited Publication file conversion and display
DE69519980T2 (de) 1994-12-28 2001-06-07 Siemens Corp Res Inc Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
GB9711022D0 (en) 1997-05-28 1997-07-23 Rank Xerox Ltd Text/image selection from document images
US6298173B1 (en) 1997-10-03 2001-10-02 Matsushita Electric Corporation Of America Storage management system for document image database
US6256620B1 (en) * 1998-01-16 2001-07-03 Aspect Communications Method and apparatus for monitoring information access
AU756026B2 (en) * 1998-01-31 2003-01-02 Nec Corporation Communication system capable of displaying addresser information and method for displaying addresser-related information
US6731788B1 (en) 1999-01-28 2004-05-04 Koninklijke Philips Electronics N.V. Symbol Classification with shape features applied to neural network
US6640010B2 (en) 1999-11-12 2003-10-28 Xerox Corporation Word-to-word selection on images
US20010056342A1 (en) 2000-02-24 2001-12-27 Piehn Thomas Barry Voice enabled digital camera and language translator
US7043080B1 (en) 2000-11-21 2006-05-09 Sharp Laboratories Of America, Inc. Methods and systems for text detection in mixed-context documents using local geometric signatures
US20030004802A1 (en) * 2001-03-19 2003-01-02 Jeff Callegari Methods for providing a virtual coupon
US20030120478A1 (en) 2001-12-21 2003-06-26 Robert Palmquist Network-based translation system
US7272377B2 (en) 2002-02-07 2007-09-18 At&T Corp. System and method of ubiquitous language translation for wireless devices
US20030200078A1 (en) 2002-04-19 2003-10-23 Huitao Luo System and method for language translation of character strings occurring in captured image data
US8832577B2 (en) * 2010-10-01 2014-09-09 Z124 Universal clipboard
US7310605B2 (en) 2003-11-25 2007-12-18 International Business Machines Corporation Method and apparatus to transliterate text using a portable device
CN101116314B (zh) * 2005-01-25 2010-06-16 软银移动公司 协同运行方法和通信终端装置
US8643605B2 (en) 2005-11-21 2014-02-04 Core Wireless Licensing S.A.R.L Gesture based document editor
US7822596B2 (en) 2005-12-05 2010-10-26 Microsoft Corporation Flexible display translation
US8098934B2 (en) * 2006-06-29 2012-01-17 Google Inc. Using extracted image text
US7689613B2 (en) 2006-10-23 2010-03-30 Sony Corporation OCR input to search engine
US20080221862A1 (en) 2007-03-09 2008-09-11 Yahoo! Inc. Mobile language interpreter with localization
US8144990B2 (en) 2007-03-22 2012-03-27 Sony Ericsson Mobile Communications Ab Translation and display of text in picture
US20080267504A1 (en) 2007-04-24 2008-10-30 Nokia Corporation Method, device and computer program product for integrating code-based and optical character recognition technologies into a mobile visual search
US7890493B2 (en) 2007-07-20 2011-02-15 Google Inc. Translating a search query into multiple languages
US8041555B2 (en) 2007-08-15 2011-10-18 International Business Machines Corporation Language translation based on a location of a wireless device
US8249391B2 (en) 2007-08-24 2012-08-21 Ancestry.com Operations, Inc. User interface method for skew correction
US8650507B2 (en) 2008-03-04 2014-02-11 Apple Inc. Selecting of text using gestures
US8296671B2 (en) * 2008-05-01 2012-10-23 Microsoft Corporation Enabling access to rich data by intercepting paste operations
KR101566196B1 (ko) 2009-03-02 2015-11-05 삼성전자주식회사 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치
JP4749476B2 (ja) 2009-04-09 2011-08-17 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体
US20100289757A1 (en) 2009-05-14 2010-11-18 Budelli Joey G Scanner with gesture-based text selection capability
US20120131520A1 (en) 2009-05-14 2012-05-24 Tang ding-yuan Gesture-based Text Identification and Selection in Images
US7973603B2 (en) * 2009-06-26 2011-07-05 Silicon Laboratories Inc. Low-noise amplifier suitable for use in a television receiver
US8543946B2 (en) 2009-06-29 2013-09-24 Sharp Laboratories Of America, Inc. Gesture-based interface system and method
US9372614B2 (en) 2009-07-09 2016-06-21 Qualcomm Incorporated Automatic enlargement of viewing area with selectable objects
JP5310357B2 (ja) 2009-07-27 2013-10-09 株式会社リコー 画像形成装置、課金情報記録方法、及びプログラム
US8520983B2 (en) 2009-10-07 2013-08-27 Google Inc. Gesture-based selective text recognition
US8400670B2 (en) 2009-11-16 2013-03-19 Eastman Kodak Company Image down-sampling with fine detail enhancement
US8515185B2 (en) 2009-11-25 2013-08-20 Google Inc. On-screen guideline-based selective text recognition
US20110161889A1 (en) 2009-12-30 2011-06-30 Motorola, Inc. User Interface for Electronic Devices
US8707174B2 (en) 2010-02-25 2014-04-22 Microsoft Corporation Multi-screen hold and page-flip gesture
US20110238626A1 (en) * 2010-03-24 2011-09-29 Verizon Patent And Licensing, Inc. Automatic user device backup
US9003298B2 (en) * 2010-09-21 2015-04-07 Microsoft Corporation Web page application controls
US8774558B2 (en) 2010-11-29 2014-07-08 Microsoft Corporation Rectification of characters and text as transform invariant low-rank textures
EP2466492A1 (en) 2010-12-20 2012-06-20 Paul Peter Vaclik A method of making text data associated with video data searchable
KR20120082102A (ko) 2011-01-13 2012-07-23 삼성전자주식회사 터치 영역에서 타깃 선택 방법
US20120182288A1 (en) 2011-01-18 2012-07-19 Sony Corporation Method and apparatus for information presentation
WO2012099558A1 (en) 2011-01-18 2012-07-26 Thomson Licensing An apparatus and method for performing video screen scrape
US20120249595A1 (en) 2011-03-31 2012-10-04 Feinstein David Y Area selection for hand held devices with display
US8793624B2 (en) * 2011-05-18 2014-07-29 Google Inc. Control of a device using gestures
DE112011105305T5 (de) 2011-06-03 2014-03-13 Google, Inc. Gesten zur Textauswahl
US9417754B2 (en) * 2011-08-05 2016-08-16 P4tents1, LLC User interface system, method, and computer program product
US8942484B2 (en) 2011-09-06 2015-01-27 Qualcomm Incorporated Text detection using image regions
US9251144B2 (en) 2011-10-19 2016-02-02 Microsoft Technology Licensing, Llc Translating language characters in media content
US9053361B2 (en) 2012-01-26 2015-06-09 Qualcomm Incorporated Identifying regions of text to merge in a natural image or video frame
CN103294657B (zh) * 2012-03-02 2017-10-27 富泰华工业(深圳)有限公司 文本编辑方法及系统
JP6093432B2 (ja) 2012-03-13 2017-03-08 マイクロソフト コーポレーション ウェブ・ページ・アプリケーション制御
KR20140030361A (ko) * 2012-08-27 2014-03-12 삼성전자주식회사 휴대단말기의 문자 인식장치 및 방법
US9020999B2 (en) * 2012-10-01 2015-04-28 Blackberry Limited Computing device with automated conversion of units
US20140111542A1 (en) * 2012-10-20 2014-04-24 James Yoong-Siang Wan Platform for recognising text using mobile devices with a built-in device video camera and automatically retrieving associated content based on the recognised text
US9329692B2 (en) 2013-09-27 2016-05-03 Microsoft Technology Licensing, Llc Actionable content displayed on a touch screen

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI676931B (zh) * 2015-10-05 2019-11-11 香港商極刻科技(香港)控股有限公司 一種於透過虛擬鍵盤輸入內容至一應用程式時提供一服務的方法

Also Published As

Publication number Publication date
CN105580384B (zh) 2018-07-31
KR20220000953A (ko) 2022-01-04
CN105580384A (zh) 2016-05-11
KR20210040196A (ko) 2021-04-12
KR102447607B1 (ko) 2022-09-26
KR102238809B1 (ko) 2021-04-09
EP3050312B1 (en) 2017-08-02
US9329692B2 (en) 2016-05-03
US11003349B2 (en) 2021-05-11
KR20160061349A (ko) 2016-05-31
KR102347398B1 (ko) 2022-01-04
US10191650B2 (en) 2019-01-29
US20150095855A1 (en) 2015-04-02
US20190114072A1 (en) 2019-04-18
EP3050312A1 (en) 2016-08-03
US20160210040A1 (en) 2016-07-21
WO2015048047A1 (en) 2015-04-02

Similar Documents

Publication Publication Date Title
US11003349B2 (en) Actionable content displayed on a touch screen
KR102161230B1 (ko) 멀티미디어 콘텐츠 검색을 위한 사용자 인터페이스 방법 및 장치
RU2702270C2 (ru) Обнаружение выбора рукописного фрагмента
US20140019905A1 (en) Method and apparatus for controlling application by handwriting image recognition
CN104182469B (zh) 对文档进行注释的方法和输入法系统
JP2018073387A (ja) オンライン会話ストリームに文書対話を持ち込むためのシステムおよび方法、コンピュータに実装された方法、プログラム、及びコンピュータ化システム
US20110252316A1 (en) Translating text on a surface computing device
RU2643437C2 (ru) Способ и устройство для выделения информации
CN109325143B (zh) 制作歌单的方法及装置、存储介质、处理器
US9519355B2 (en) Mobile device event control with digital images
TWI703492B (zh) 控制使用者介面之方法、程式及裝置
US20180151178A1 (en) Interactive question-answering apparatus and method thereof
WO2023087934A1 (zh) 一种语音控制方法、装置、设备以及计算机存储介质
CN108256071B (zh) 录屏文件的生成方法、装置、终端及存储介质
US20190227634A1 (en) Contextual gesture-based image searching
TW201610712A (zh) 處理影像以識別用於插入到文件的物件
US11978252B2 (en) Communication system, display apparatus, and display control method
US9361859B2 (en) Information processing device, method, and computer program product
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム
KR20150097250A (ko) 태그 정보를 이용한 스케치 검색 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체
KR20120133149A (ko) 데이터 태깅 장치, 그의 데이터 태깅 방법 및 데이터 검색 방법
CN111580689A (zh) 一种智能触控笔交互方法
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
TWI387888B (zh) Windows detection system
JP2018084761A (ja) 情報処理装置、情報処理システム、方法、及びプログラム