TW201523426A

TW201523426A - 顯示於觸控螢幕上的可動作內容

Info

Publication number: TW201523426A
Application number: TW103128323A
Authority: TW
Inventors: Peng Bai; Qiang Huo; Jun Du; Lei Sun
Original assignee: Microsoft Corp
Priority date: 2013-09-27
Filing date: 2014-08-18
Publication date: 2015-06-16
Also published as: CN105580384B; KR20220000953A; CN105580384A; KR20210040196A; KR102447607B1; KR102238809B1; EP3050312B1; US9329692B2; US11003349B2; KR20160061349A; KR102347398B1; US10191650B2; US20150095855A1; US20190114072A1; EP3050312A1; US20160210040A1; WO2015048047A1

Abstract

本文介紹一些實施方式，該等實施方式可在觸控螢幕顯示器上展示包括視訊之媒體檔案。可偵測到在觸控螢幕顯示器上執行之使用者手勢。使用者手勢可包括輕敲手勢、滑動手勢，或輕敲及按住及在按住之同時拖曳之手勢中之一者。可決定由使用者手勢選定之文字。可至少部分地基於由使用者手勢選定之文字來自動執行一或更多個後續動作。

Description

顯示於觸控螢幕上的可動作內容

本發明係關於顯示於觸控螢幕上的可動作內容。

當使用者正在檢視諸如視訊檔案、串流視訊、文件、網頁，或類似物之媒體檔案時，使用者可能需要獲得關於該媒體檔案所顯示之文字的資訊。例如，檢視關於某技術課題之演示文稿之使用者可能需要獲得與該演示文稿之作者中之一者或與該技術課題關連之資訊。使用者可暫停對媒體檔案之檢視，打開網頁瀏覽器，導航至搜尋引擎，使用作者姓名或技術課題關鍵字執行搜尋，檢視結果，及選擇結果中顯示之一或更多個鏈接以獲得更多更多資訊。在使用者已獲得資訊之後，使用者可繼續檢視媒體檔案。每次使用者需要獲得關於媒體檔案所顯示之文字的資訊時，使用者可重複暫停對媒體檔案之檢視。然而，每次使用者需要獲得關於媒體檔案所顯示之文字的資訊時重複暫停對媒體檔案之檢視可能較為耗時，及/或可能中斷經由媒體檔案所展示之材料流。

提供此【發明內容】用以以簡化形式介紹選定概念，該等概念在下文之【實施方式】中進一步描述。此【發明內容】並非旨在確定本文所主張之標的物之關鍵特徵或基本特徵；亦非旨在用於決定或限制本文所主張之標的物之範疇。

一些實施方式可在觸控螢幕顯示器上展示包括視訊之媒體檔案。可偵測到在觸控螢幕顯示器上執行之使用者手勢。使用者手勢可包括輕敲手勢、滑動手勢，或輕敲及按住及在按住同時拖曳之手勢中之一者。可決定由使用者手勢選定之文字。可至少部分地基於由使用者手勢選定之文字來自動執行一或更多個後續動作。

102‧‧‧計算裝置

104‧‧‧伺服器

106‧‧‧網路

108‧‧‧處理器

110‧‧‧觸控螢幕顯示器

112‧‧‧記憶體

114‧‧‧媒體放映模組

116‧‧‧螢幕擷取模組

118‧‧‧輸入處理程式模組

120‧‧‧文字提取模組

122‧‧‧文字辨識模組

124‧‧‧上下文決定模組

126‧‧‧使用者喜好設定

128‧‧‧後續動作模組

130‧‧‧媒體檔案

132‧‧‧螢幕擷取

134‧‧‧使用者輸入

136‧‧‧使用者手勢

138‧‧‧歷史檔案

140‧‧‧位置資料

142‧‧‧提取文字影像

144‧‧‧選定文字

146‧‧‧上下文

148‧‧‧預設動作

150‧‧‧後續動作

152‧‧‧結果

200‧‧‧計算裝置

202‧‧‧媒體播放器介面

204‧‧‧輕敲手勢

208‧‧‧窗口

210‧‧‧翻譯

212‧‧‧搜尋結果

300‧‧‧計算裝置

302‧‧‧滑動手勢

400‧‧‧計算裝置

402‧‧‧輕敲及按住手勢

404‧‧‧在按住之同時拖曳之手勢

500‧‧‧流程

502‧‧‧步驟

504‧‧‧步驟

506‧‧‧步驟

508‧‧‧步驟

510‧‧‧步驟

512‧‧‧步驟

514‧‧‧步驟

516‧‧‧步驟

600‧‧‧流程

602‧‧‧步驟

604‧‧‧步驟

606‧‧‧步驟

608‧‧‧步驟

610‧‧‧步驟

612‧‧‧步驟

614‧‧‧步驟

616‧‧‧步驟

618‧‧‧步驟

620‧‧‧步驟

700‧‧‧流程

702‧‧‧處理器

704‧‧‧記憶體

706‧‧‧通信介面

708‧‧‧顯示器裝置

710‧‧‧輸入/輸出(I/O)裝置

712‧‧‧大容量儲存裝置

714‧‧‧系統匯流排

716‧‧‧其他模組

718‧‧‧其他資料

參考附圖而進行詳細描述。在圖式中，元件符號之一或多個最左側數字確定元件符號首次出現時所在之圖式。不同圖式中之相同元件符號指示類似或相同的項。

第1圖是根據一些實施方式之包括後續動作模組之說明性架構。

第2圖是根據一些實施方式之具有觸控螢幕顯示器使用者介面之說明性計算裝置，該使用者介面圖示接收輕敲手勢。

第3圖是根據一些實施方式之具有觸控螢幕顯示器使用者介面之說明性計算裝置，該使用者介面圖示接收滑動手勢。

第4圖是根據一些實施方式之具有觸控螢幕顯示器使用者介面之說明性計算裝置，該使用者介面圖示接收輕敲及按住手勢。

第5圖是根據一些實施方式之示例性製程之流程圖，該製程包括偵測輕敲或滑動手勢。

第6圖是根據一些實施方式之示例性製程之流程圖，該製程包括偵測輕敲及按住手勢。

第7圖是根據一些實施方式之示例性計算裝置及環境之方塊圖。

如上文所論述，每次使用者需要獲得關於媒體檔案所顯示之文字的資訊時重複暫停對媒體檔案之檢視可能較為耗時，及/或可能中斷經由媒體檔案所展示之材料流。本文所述之系統及技術可賦能回應於對顯示包括文字之媒體之觸控螢幕上的使用者手勢之偵測而自動執行不同動作。使用者手勢可藉由使用諸如輕敲觸控螢幕中顯示字之一部分，滑動觸控螢幕中顯示兩個或兩個以上字之一部分，或輕敲及按住觸控螢幕中之第一部分及拖曳(在按住之同時)過觸控螢幕中之第二部分的手勢來選擇媒體所顯示之文字。後一手勢亦可被稱作輕敲及按住及在按住之同時拖曳。本文所述之手勢可藉由使用多種技術執行，包括使用使用者之附屬肢體(例如指尖)之至少一部分、使用選擇工具(例如尖筆)、使用多點觸控(例如指尖及拇指或或兩個指尖)手勢、非觸控手勢(例如由攝影機辨識之手勢，攝影機如微軟Kinect®)、觸控加語音命令(例如觸控字，然後說出「搜尋」或「翻譯」)、另一類型之輸入機制，或上述各者之任一組合。

使用者可在具有觸控螢幕顯示器之計算裝置上檢視媒體檔案。例如，計算裝置可包括桌上型電腦、膝上型電腦、平板電腦、行動電話、遊戲設備、媒體放映設備，或其他類型之計算設備。媒體檔案可為視訊(例如視訊檔案或串流視訊)、使文字(例如與聲訊檔案關連之資訊，如標題、藝術家資訊、歌詞，或類似物)得以顯示之聲訊檔案、文件、影像檔案(例如圖像、相片，或電腦生成之影像)、網頁瀏覽器所顯示之頁面、另一類型之媒體檔案，或上述各者之任一組合。使用者可在觸控螢幕上一位置處執行使用者手勢，該位置約對應於觸控螢幕上由媒體檔案顯示文字之位置。

輕敲手勢係指向觸控螢幕之一部分施加壓力達預定預定時段(例如在200與800毫秒之間)。滑動手勢係指自觸控螢幕之開始位置至結束位置施加壓力。輕敲及按住在按住之同時拖曳之手勢係指在觸控螢幕之開始位置施加壓力達預定時段，及在繼續施加壓力之同時將壓力位置移至觸控螢幕之結束位置。對於顯示多個框或頁之媒體檔案而言，輕敲及按住及在按住之同時拖曳之手勢可看到多個框或頁。例如，在開始位置之輕敲及按住可導致視訊放映暫停。在繼續施加壓力之同時(例如在按住之同時)，將壓力位置拖曳(例如移動)至結束位置可使暫停之媒體前進(例如，視訊可前進到一或更多個下一框或文件可前進到一或更多個後續頁)。以此方式，輕敲及按住及在按住之同時拖曳之手勢可自可藉由使用多個框、多個文件頁或類似物而顯示之媒體檔案中選擇文字。當正在顯示包括文字之視訊時，輕敲及按住及在按住之同時拖曳之手勢可跨過視訊中一個以上之框以自一個以上視訊框中選擇文字。當正在顯示包括多個頁之文件時，輕敲及按住及在按住之同時拖曳之手勢可跨過文件中一個以上之頁以自文件中一個以上之頁中選擇文字。

回應於對使用者手勢(例如輕敲、滑動，或輕敲及按住及在按住之同時拖曳)之偵測，可擷取一或更多個螢幕以擷取當執行手勢時正在觸控螢幕上顯示之媒體檔案之一部分。例如，當顯示文件時，可擷取在執行使用者手勢時所顯示之文字。作為另一實例，當顯示視訊時，可藉由使用框擷取器來擷取視訊之一或更多個框。

可決定與使用者手勢關連之位置資訊。例如，對於輕敲手勢而言，可決定與輕敲手勢關連之觸控螢幕上之坐標(例如x及y坐標)。對於滑動手勢而言，可決定與滑動手勢關連之開始坐標及結束坐標。對於輕敲及按住及在按住之同時拖曳之手勢而言，可決定每一框、每一頁，或其他類型之顯示器裝置之開始坐標及結束坐標。若在正在顯示視訊檔案、聲訊檔案，或包括時間資訊之其他類型之檔案時執行使用者手勢，則除了位置資訊之外亦可決定與該使用者手勢關連之諸如時間戳記或時間碼之時間資訊。例如，在當觸控螢幕顯示器上正在顯示視訊檔案時執行輕敲手勢或滑動手勢，可決定與該使用者手勢關連之位置資訊及時間資訊。為了進行說明，時間資訊可包括與使用者手勢關連之開始時間(例如，第一時間碼辨識何時發起使用者手勢)、與使用者手勢關連之結束時間(例如，第二時間碼辨識使用者手勢何時結束)、與使用者手勢關連之另一類型之時間資訊，或上述各者之任何組合。

可基於與使用者手勢關連之位置資訊，藉由使用高效的使用者意向導向文字提取算法，自一或更多個螢幕擷取中提取文字影像塊。所提取之文字影像可使用光學字符識別(optical character recognition；OCR)或類似之文字提取技術以決定選定文字。例如，回應於輕敲手勢，可自螢幕擷取中提取字。所提取之字可對應於來自媒體檔案之文字，該文字在觸控螢幕上執行輕敲手勢之位置或鄰近位置顯示。回應於滑動手勢，可自螢幕擷取中提取一或更多個字。提取之字可對應於來自媒體檔案之文字之部分，該部分文字在觸控螢幕上執行滑動手勢之位置或鄰近位置顯示。回應於輕敲及按住及在按住之同時拖曳之手勢，可自一或更多個螢幕擷取中提取一或更多個字。所提取之字可對應於來自媒體檔案之文字之部分，該部分文字在觸控螢幕上執行輕敲及按住及在按住之同時拖曳之手勢之位置或鄰近位置處顯示。

在已自一或更多個螢幕擷取中提取一或更多個字之後，可自動執行一或更多個動作(例如無需與人互動)。可自動執行之動作可包括將選定文字自第一語言翻譯至第二語言，執行網際網路搜尋，執行特定網址之搜尋，或類似動作。可基於與選定文字(例如，位於選定文字之前及/或之後的文字、所獲得之媒體所在之網站或伺服器、媒體之作者或建立者，等)、使用者喜好設定、預設動作集，或上述各者之任何組合關連之上下文來決定回應於觸控螢幕上之使用者手勢而自動執行之動作。例如，預設動作集可包括使用選定文字執行搜尋。作為另一實例，使用者喜好設定可規定動作集，該動作集包括將選定文字翻譯至目標語言，顯示譯文，及使用譯文執行搜尋。

自動執行之動作的結果可在正在顯示媒體檔案之窗口或第二窗口之中顯示。第二窗口可在顯示媒體之窗口鄰近處顯示，或以彈出式窗口(例如覆加在顯示媒體之窗口上)顯示。例如，選定文字之翻譯及使用譯文進行的網際網路搜尋之結果可在覆蓋顯示媒體之窗口的彈出式窗口中顯示。作為另一實例，選定文字之翻譯可在第一彈出式窗口中顯示，及使用譯文進行的網際網路搜尋之結果可在第二彈出式窗口中顯示。

在一些情況下，可使用兩個互動模型。當使用者檢視媒體內容(例如視訊檔案、聲訊檔案、文件，或類似物)時，可在接收使用者手勢時使用第一互動模型。當使用者在檢視媒體內容之同時執行使用者手勢時，可執行一或更多個預設動作，及預設動作之結果可在第二(例如彈出式)窗口中顯示。當在第二窗口中檢視預設動作之結果之同時，可將第二互動模型用於使用者手勢。例如，第一互動模型可包括將選定文字自來源語言翻譯至目標語言，及使用譯文執行搜尋。第二互動模型可包括使用選定文字執行搜尋。在此實例中，選定文字之翻譯在第一互動模型而非第二互動模型中執行。可使用使用者資料檔、使用者喜好設定檔案，或類似的使用者特定客製化技術來規定第一互動模型及第二互動模型。

由此，在檢視媒體檔案時，使用者可輸入手勢以產生以下結果：(1)自媒體檔案之一部分提取文字，及(2)使用所提取之文字自動執行一或更多個動作。使用者手勢可包括例如輕敲手勢、滑動手勢，及輕敲及按住及在按住同時拖曳之手勢。回應於使用者手勢而可自動執行之動作可包括例如翻譯選定文字、使用選定文字執行搜尋，或類似動作。例如，正在檢視技術演示文稿(例如視訊、幻燈片集、文件、網頁，等)之使用者可輕敲或滑動技術術語或詞組以獲得與該術語或詞組關連之額外資訊。作為另一實例，正在檢視技術演示文稿之使用者可輕敲或滑動作者之姓名以獲得與該作者關連之額外資訊。

說明性架構

第1圖是根據一些實施方式之包括後續動作模組之說明性架構100。架構100包括使用網路106而耦接至一或更多個伺服器104之計算裝置102。

伺服器104可提供多種基於網路之服務，如用以搜尋網際網路之搜尋服務、用以將字、詞組，或句子自來源語言翻譯至目標語言之翻譯服務，等。網路106可包括有線及/或無線網路。有線網路可使用多種協定及標準，如乙太網路、電纜資料服務介面規範(data over cable service interface specification；DOCSIS)、數位用戶線(digital subscriber line；DSL)，及類似協定中之一或更多者。無線網路可使用多種協定及標準，如碼分多工存取(code division multiple access； CDMA)、全球行動通訊系統(global system for mobile；GSM)、WiFi(例如802.11)，及類似標準中之一或更多者。

計算裝置102可為桌上型電腦、膝上型電腦、平板電腦、媒體放映設備、行動電話裝置、另一類型之計算裝置，或上述各者之任何組合。計算裝置102可包括一或更多個處理器108、觸控螢幕顯示器110，及記憶體112。記憶體112可用以儲存可由處理器108執行以執行多種功能之指令。指令可按指令所執行之功能而經分組到模組中。例如，記憶體可包括媒體放映模組114、螢幕擷取模組116、輸入處理程式模組118、文字提取模組120、文字辨識模組122、上下文決定模組124、使用者喜好設定126，及後續動作模組128。

媒體放映模組114能夠展示(例如播放或顯示)不同類型之媒體，包括視訊檔案、聲訊檔案、文件(例如具有與Microsoft® Word®軟體兼容之格式、便攜式文件格式(portable document format；PDF)、富文字格式(rich text format；RTF)、由網路瀏覽器顯示之頁，或其他文件格式)，及其他類型之媒體檔案。在媒體檔案130放映期間，媒體放映模組114可顯示媒體檔案130中所包括之文字或與媒體文件130關連之文字。例如，在視訊檔案包括文字之情況下，當播放視訊檔案時，媒體放映模組114可顯示文字，如視訊檔案之標題或視訊檔案之作者。作為另一實例，在播放聲訊檔案時，媒體放映模組114可顯示文字，如聲訊檔案之名稱、包括聲訊檔案之專輯之名稱、與聲訊檔案關連之音樂家之名稱、與聲訊檔案關連之歌詞、與聲訊檔案關連之其他文字，或上述各者之任何組合。所顯示之文字中至少一部分可包括在聲訊檔案內或可藉由媒體放映模組114而自伺服器104中之一者中擷取。媒體檔案130可為儲存在記憶體112中之檔案，或為自伺服器104中之一者流經網路106之檔案。

當展示媒體檔案130時，螢幕擷取模組116可藉由媒體放映模組114來擷取正在觸控螢幕顯示器110上顯示之媒體內容之螢幕快照。正在顯示之媒體內容可包括文字。例如，螢幕擷取模組116可產生一或更多個螢幕擷取132。螢幕擷取模組116擷取所顯示之媒體內容的方式可依據媒體檔案130之類型而改變。例如，當媒體檔案130是視訊檔案時，螢幕擷取模組116可使用框取技術以擷取一或更多個視訊框。作為另一實例，當媒體檔案130是文件時，螢幕擷取模組116可使用螢幕擷取技術以自所顯示之文件中擷取一或更多個內容螢幕。

輸入處理程式模組118可接收使用者輸入134，包括由使用者在觸控螢幕顯示器110上執行之手勢。輸入處理程式模組118可偵測及辨識使用者輸入134中包括之手勢。例如，輸入處理程式模組118可偵測及辨識使用觸控螢幕顯示器110輸入之使用者手勢136。回應於對使用者手勢136之偵測，輸入處理程式模組118可命令螢幕擷取模組116自媒體檔案130中由媒體放映模組114正在觸控螢幕顯示器110上展示之部分中擷取螢幕擷取132。

輸入處理程式模組118可產生歷史檔案138，該歷史檔案包括關於已接收哪些使用者手勢及接收該等手勢之時間的資訊。例如，輸入處理程式模組118可產生每一使用者與每一媒體檔案之互動的歷史檔案。下文中更詳細地描述歷史檔案138。

輸入處理程式模組118可決定與每一使用者手勢136關連之位置資料140。例如，當使用者手勢136是輕敲手勢時，位置資料140可辨識觸控螢幕顯示器110上偵測到使用者手勢136之位置(例如，x及y坐標)。當使用者手勢136是滑動手勢時，位置資料140可辨識觸控螢幕顯示器110上偵測到該使用者手勢136的開始位置及結束位置。當使用者手勢136是輕敲及按住及在按住之同時拖曳之手勢時，位置資料140可辨識觸控螢幕顯示器110上與使用者手勢136關連之媒體檔案130之每一框(或頁)之開始位置及結束位置。

文字提取模組120可自螢幕擷取132中提取文字以作為提取文字影像142。例如，文字提取模組120可使用使用者意向導向文字提取算法以自螢幕擷取132中產生提取文字影像142。文字提取模組120可使用螢幕擷取132及使用者手勢136以作為文字區域之輸入及輸出位置及定界框，該文字區域可包括使用者選定文字、意向文字(例如基於使用者手勢決定使用者意向及基於使用者意向選擇文字)及上下文的文字。對於輕敲及按住及在按住之同時拖曳之手勢而言，文字提取模組120可自影像中提取多行文字，包括跨過多個視訊框或多個文件頁之文字。

組件樹可用以設計高效的使用者意向導向文字提取算法以自動地提取文字，該組件樹中每一節點表示極值區域(例如風行類型之影像表示方法)。不獨立慮及組件樹之每一節點，或除了獨立慮及每一節點之外，諸如樹之結構資訊、文字行資訊，及使用者意圖之額外資訊亦可用以修整組件樹之非文字節點。例如，當偵測到使用者手勢時，可調整影像之大小。藉由假定白底上為黑字及黑底上為白字，可自經調整大小之影像建立兩個組件樹。可分別修整該兩個組件樹。可藉由將每一樹中之殘存節點(例如在修整中殘存之節點)分組來計算文字定界框。可比較兩個組件樹之結果，及選擇較佳者作為輸出。修整可包括使用比較及幾何形狀資訊進行修整，及使用使用者意向及文字行資訊進行修整。修整步驟可用以修整儘可能多之顯著非文字區域。

文字辨識模組122可採用提取文字影像142作為輸入，及使用OCR產生選定文字144。文字辨識模組122可使位置資料140與螢幕擷取132相關聯以辨識使用者選定之文字，例如選定文字144。例如，位置資料140可與螢幕擷取132相關聯以辨識提取文字142中之部分，該等部分與由使用者手勢136選擇的所顯示之媒體檔案中之部分對應。為進行說明，螢幕擷取132可包括來自視訊之框或文件之頁中之文字。提取文字142可包括與來自視訊之框或文件之頁的文字對應之字。文字辨識模組122可使用位置資料140以辨識來自提取文字142中之選定文字144(例如，在觸控螢幕顯示器110上顯示且由使用者手勢136選擇的文字)。

選定文字144亦可被稱作可動作文字，因為選定文字144可由後續動作模組128用以執行一或更多個後續動作。後續動作模組128可基於多種資訊執行後續動作。例如，每一使用者可規定使用者喜好設定126(例如，在使用者資料檔中)，該使用者喜好設定辨識回應於特定的使用者手勢而執行之特定動作集。為進行說明，使用者喜好設定126可規定：對於特定使用者而言，回應於輕敲手勢而將執行第一動作集，回應於滑動手勢而將執行第二動作集，及對於輕敲及按住及在按住之同時拖曳之手勢則將執行第三動作集。

上下文決定模組124可藉由檢查提取文字142中鄰近於選定文字144之字來決定選定文字144之上下文146。例如，後續模組128可決定選定文字144是常用字，命令上下文決定模組124決定使用者意向，基於使用者意向決定上下文146，及基於選定文字144及上下文146執行後續動作。為進行說明，當檢視針對主題「神經網路」之演示文稿時，使用者可執行輕敲手勢以選擇字「網路」。後續模組128可決定選定文字144(例如「網路」)是常用字，命令上下文決定模組124決定上下文146(例如「神經」)，及基於選定文字144及上下文146(例如「神經」及「網路」)執行後續動作。作為另一實例，演示文稿之作者可顯示為「Geoffrey Hinton」。使用者可執行輕敲手勢以選擇字「Geoffrey」。後續模組128可決定選定文字144(例如「Geoffrey」)是常用名，命令上下文決定模組124決定上下文146(例如「Hinton」)，及基於選定文字144及上下文146(例如「Hinton」及「Geoffrey」)執行後續動作。在一些情況下，後續模組128可基於上下文 146修正選定文字144及基於修正的選定文字144執行後續動作。

若使用者不具有關連之使用者喜好設定126集，及後續模組128決定無需決定與選定文字144關連之上下文146，則後續模組128可執行一或更多個預設動作148。因此，後續動作模組128可決定待基於選定文字144、上下文146、使用者喜好設定126，或預設動作148中之一或更多者執行之後續動作150。

在決定後續動作150之後，後續動作模組128可執行後續動作150中之一或更多者，及顯示執行該等後續動作150之結果152。後續動作150可包括由計算裝置102執行的動作、由伺服器104執行的動作，或該兩者。例如，後續動作可包括使用儲存在計算裝置102之記憶體112中之字典翻譯選定文字144，然後將譯文發送至由伺服器104之一者所代管之搜尋引擎。結果152可包括譯文及來自搜尋引擎之搜索結果。作為另一實例，後續動作可包括使用由伺服器104之一者所代管之翻譯服務來翻譯選定文字144，接收來自翻譯服務之譯文，然後將譯文發送至由伺服器104之一代管之搜尋引擎。結果152可包括譯文及搜索結果。作為又一實例，結果152可包括使用文字至語音產生器以發出選定文字中一或更多者之語音。文字至語音產生器可為計算裝置102之模組，或由伺服器104之一者所代管之服務。

可以多種方式顯示結果152。例如，結果152可在彈出式窗口中顯示，該彈出式窗口覆蓋正在展示媒體檔案130 之窗口之至少一部分。結果152可在正在展示媒體檔案130之同一窗口中顯示。媒體檔案130可在第一窗口中展示，及結果152可在第二窗口中展示，該第二窗口在第二窗口鄰近處(例如上方、下方、右側，或左側)。結果152向使用者顯示之方式可由使用者喜好設定126規定，或由預設顯示指令集規定。

使用者可以類似於與媒體檔案130互動的方式與結果152之內容互動。例如，結果152可包括含視訊檔案之搜尋結果，該等視訊檔案可藉由選擇統一資源定位器(universal resource locator；URL)而經檢視(例如串流)。回應於對視訊檔案之URL之選擇，媒體放映模組114可啟動與該URL關連之視訊檔案之展示。使用者可輸入額外的使用者手勢以選擇額外的文字，使額外的後續動作得以執行，及顯示額外的結果，等等。作為另一實例，使用者可輸入使用者手勢以選擇結果中之字或詞組，使額外的後續動作得以執行，及顯示額外的結果，等等。

輸入處理程式模組118可將使用者手勢136及與使用者手勢136關連之資訊記錄在歷史檔案138中。例如，當媒體檔案130是視訊檔案或聲訊檔案時，輸入處理程式模組118可記錄使用者手勢136、位置資料140及辨識媒體檔案130中接收到使用者手勢136之時間位置之時間戳記。輸入處理程式模組118可記錄對結果152執行之第一使用者手勢集、對執行第一使用者手勢集之結果執行之第二使用者手勢集，等等。當輸入使用者手勢136時，歷史檔案138可協助使用者在媒體檔案之放映期間定位時間位置。媒體放映模組114可顯示辨識由使用者輸入之每一使用者手勢之視訊時間線，以使得使用者能夠快速定位媒體檔案130之展示。可單獨地儲存每一使用者及/或每一會話之歷史檔案。使用者可基於每一媒體檔案之選定文字來搜尋每一歷史檔案之內容之索引。歷史檔案138中之每一者可包括高亮顯示之資訊及/或註記。例如，當使用者正在檢視線上課程(例如視訊及/或文件)時，使用者可高亮顯示媒體檔案130中之關鍵字，及/或向關鍵字增添註記。使用者可使用使用者手勢以選擇關鍵字以進行高亮顯示及/或添加註記。因為高亮資訊及/或注記共同儲存在歷史檔案中，因此使用者可搜尋高亮文字及/或注記及找到對應視訊及先前執行之動作(例如自動執行之後續動作及/或由使用者執行之動作)之資訊。

由此，選擇由媒體檔案顯示之文字之一部分之使用者手勢可使得自動執行一或更多個後續動作(例如在沒有與人互動之情況下)。例如，使用者可使用媒體放映模組114檢視媒體檔案130。使用者可在觸控螢幕顯示器110上執行使用者手勢136。回應於對使用者手勢136之偵測，可決定使用者手勢136之位置資料140及可產生一或更多個螢幕擷取132。可自螢幕擷取132中提取提取文字142。螢幕擷取132及位置資料140可用以辨識選定文字144。在一些情況下，可決定選定文字144之上下文146及/或可決定與使用者關連之使用者喜好設定126。可基於選定文字144、上下文146、使用者喜好設定126，或預設動作148中之一或更多者來執行後續動作150。可在觸控螢幕顯示器110上自動地顯示後續動作150之結果152。以此方式，在檢視媒體檔案時，使用者可在觸控螢幕上執行使用者手勢及使多個動作得以自動執行，及使結果自動地顯示。例如，正在檢視諸如視訊或文件之技術演示文稿之使用者可使用使用者手勢以選擇技術演示文稿中顯示之不同的字或詞組。回應於使用者手勢，可執行多個動作，及自動向使用者顯示結果。例如，回應於使用者手勢，使用者可自動獲得翻譯及/或搜尋結果。

第2圖是根據一些實施方式之說明性計算裝置200，該計算裝置具有觸控螢幕顯示器使用者介面，該介面圖示接收到輕敲手勢。可提供媒體播放器介面202以使得使用者能夠檢視媒體檔案，如媒體檔案130。

回應於使用者在觸控螢幕顯示器110上執行輕敲手勢204，計算裝置102可決定選定文字144。例如，在第2圖中，使用者可在字「Geoffrey」之至少一部分之處或鄰近處執行輕敲手勢204。回應於對輕敲手勢204之偵測，計算裝置102可辨識選定文字144。例如，計算裝置102可決定與輕敲手勢204關連之位置資料及執行螢幕擷取。計算裝置102可自螢幕擷取中提取文字(例如使用OCR)及基於位置資料及提取文字決定選定文字144。

計算裝置102可基於選定文字144執行一或更多個動作及在窗口208中提供結果152。例如，結果152可包括對應於選定文字144之翻譯210、基於選定文字144及/或翻譯210之搜尋結果212，及/或任何其他後續動作之結果。

在一些情況下，可使用兩個互動模型。當使用者正在檢視媒體檔案130時，在接收到使用者手勢之情況下可使用第一互動模型。當使用者在檢視媒體檔案130之同時執行使用者手勢時，可執行一或更多個預設動作及該等預設動作之結果可在窗口208中顯示。第二互動模型可用於在檢視窗口208中之預設動作結果之同時接收到的使用者手勢。例如，第一互動模型可包括將選定文字自來源語言翻譯至目標語言，及使用譯文執行搜尋。第二互動模型可包括使用選定文字執行搜尋。在此實例中，選定文字之翻譯在第一互動模型中執行，而非在第二互動模型中執行。可使用使用者資料檔、使用者喜好設定檔案，或類似的使用者特定客製化技術規定第一互動模型及第二互動模型。

由此，回應於輕敲手勢204，計算裝置可自動選擇字(例如「Geoffrey」)作為選定文字144。計算裝置102可使用選定文字144自動地執行一或更多個後續動作。計算裝置102可在窗口208中自動地顯示後續動作之結果152。

第3圖是根據一些實施方式之說明性計算裝置300，該計算裝置具有觸控螢幕顯示器使用者介面，該介面圖示接收到滑動手勢。回應於使用者在觸控螢幕顯示器110上執行滑動手勢302，計算裝置102可決定選定文字144。例如，在第3圖中，使用者可在詞組「Geoffrey Hinton」之至少一部分之處或鄰近處執行滑動手勢302。

回應於對滑動手勢302之偵測，計算裝置102可辨識選定文字144。例如，計算裝置102可決定與滑動手勢302 關連之位置資料(例如，開始位置及結束位置)及執行螢幕擷取。例如，若媒體檔案130包括視訊資料，則視訊擷取器模組可擷取視訊資料中之一或更多個框。計算裝置102可自螢幕擷取中提取文字(例如使用OCR)及基於位置資料及提取文字決定選定文字144。

計算裝置102可基於選定文字144執行一或更多個動作及在窗口208中提供結果152。例如，結果152可包括對應於選定文字144之翻譯、基於選定文字144及/或翻譯之搜尋結果，及/或任何其他後續動作之結果。

如前文所提及，可使用兩個互動模型。當使用者正在檢視媒體檔案130時，在接收到使用者手勢之情況下可使用第一互動模型。當使用者在檢視媒體檔案130之同時執行使用者手勢時，可執行一或更多個預設動作及該等預設動作之結果可在窗口208中顯示。第二互動模型可用於在檢視窗口208中之預設動作結果之同時接收到的使用者手勢。

因此，回應於滑動手勢302，計算裝置可自動選擇詞組(例如「Geoffrey Hinton」)作為選定文字144。計算裝置102可使用選定文字144自動地執行一或更多個後續動作。計算裝置102可在窗口208中自動地顯示後續動作之結果152。

第4圖是根據一些實施方式之說明性計算裝置400，該計算裝置具有觸控螢幕顯示器使用者介面，該介面圖示接收到輕敲及按住手勢。回應於使用者在觸控螢幕顯示器110上執行輕敲及按住手勢402，計算裝置102可決定選定文字144。例如，在第4圖中，使用者可在字「Fully」之至少一部分之處或鄰近處執行輕敲及按住手勢402。回應於對輕敲及按住手勢402之偵測，在一些情況下，計算裝置102可暫停媒體檔案130之放映(或顯示)以使得使用者能夠選擇在多個框(或多個頁)中所顯示之文字。

計算裝置102可等待預定時段以接收在按住之同時拖曳之手勢404。若使用者未在預定時段內輸入在按住之同時拖曳之手勢404，則計算裝置102可將輕敲及按住手勢402視為輕敲手勢204。若使用者在預定時段內輸入在按住之同時拖曳之手勢404，則計算裝置102可使媒體檔案130之展示前進(例如顯示額外頁或放映額外框)直至在按住之同時拖曳之手勢404停止，例如，直至使用者釋放按住。

計算裝置102可決定與輕敲及按住手勢402及在按住之同時拖曳之手勢404關連之位置資料(例如，一或更多個開始位置及結束位置)。計算裝置102可擷取媒體檔案130之一或更多個螢幕擷取。例如，若計算裝置102在按住之同時拖曳之手勢404的期間使媒體檔案130之展示前進了，則計算裝置102可擷取多個螢幕之螢幕快照。多個螢幕擷取可包括發生輕敲及按住手勢402之初始螢幕及額外的螢幕，最多及包括在按住之同時拖曳之手勢404結束(例如，停止拖曳或釋放按住)之最終螢幕。計算裝置102可自螢幕擷取中提取文字(例如使用OCR)及基於手勢402及手勢404之位置資料及提取文字決定選定文字144。

由此，回應於手勢402及手勢404，計算裝置可自動選擇多個字(例如「完全循環網路」)作為選定文字144。在一些情況下，選定文字144可跨過多個螢幕，例如，多個視訊框、多個文件頁，或類似物。計算裝置102可使用選定文字144自動地執行一或更多個後續動作。計算裝置102可在窗口208中自動地顯示後續動作之結果152。

示例性流程

在第5圖、第6圖及第7圖之流程圖中，每一方塊表示可在硬體、軟體，或該兩者之組合中實施之一或更多個操作。在軟體情景中，方塊表示在由一或更多個處理器執行時使處理器執行所列舉之操作的電腦可執行指令。一般而言，電腦可執行指令包括執行特定功能或實施特定抽象資料類型之常式、程式、物件、模組、組件、資料結構等。本文描述方塊之次序並非旨在被視作限制，及任何數目之所述操作可以任何次序及/或並行組合以實施流程。為進行論述，參考如上所述之架構100、200、300，及400描述流程500、600，及700，但其他模型、框架、系統及環境亦可實施該等流程。

第5圖是根據一些實施方式之示例性流程500之流程圖，該示例性流程500包括偵測輕敲或滑動手勢。流程500可(但並非必須)由第1圖、第2圖、第3圖或第4圖中之計算裝置102執行。

在502中，可偵測到使用者手勢(例如，輕敲手勢或滑動手勢)。例如，在第1圖中，輸入處理程式模組118可偵測使用者手勢136。使用者手勢136可包括第2圖中之輕敲手勢204或第3圖中之滑動手勢302。

在504中，可產生在顯示器上顯示之媒體檔案之一部分之螢幕擷取。例如，在第1圖中，回應於對使用者手勢136之偵測，輸入處理程式模組118可命令螢幕擷取模組116產生螢幕擷取132，該螢幕擷取132擷取在觸控螢幕顯示器110上顯示之媒體檔案130中至少一部分。

在506中，可決定與輕敲手勢或滑動手勢關連之位置資料。例如，在第1圖中，輸入處理程式118可決定與使用者手勢136關連之位置資料140。對於第2圖中之輕敲手勢204而言，位置資料140可包括觸控螢幕110上發生輕敲手勢204之位置之x及y坐標。對於第3圖中之滑動手勢302而言，位置資料140可包括觸控螢幕110上之滑動手勢302之位置之開始坐標及結束坐標。

在508中，可自螢幕擷取中提取文字，及可使用位置資料決定選定文字。例如，在第1圖中，文字提取模組120可使用OCR而自螢幕擷取132中產生提取文字142。文字辨識模組122可藉由使位置資料140與螢幕擷取132及提取文字142相關聯來決定選定文字144。

在510中，可決定使用者喜好設定。例如，在第1圖中，後續動作模組128可使用使用者喜好設定126來決定使用者之喜好設定。

在512中，可決定與選定文字關連之上下文。例如，在第1圖中，藉由檢查緊鄰選定文字144之字，可自提取文字142決定與選定文字144關連之上下文146。

在514中，可自動地執行一或更多個後續動作。在516中，可顯示執行該一或更多個後續動作之結果。例如，在第1圖中，後續動作模組128可自動地執行後續動作150及自動地顯示結果152。可基於選定文字144、上下文146、預設動作148，或使用者喜好設定126中之一或更多者來選擇後續動作150。

若使用者在檢視結果時執行使用者手勢，則流程可返回至502。例如，使用者可執行使用者手勢以自所顯示結果中選擇文字。計算裝置102可偵測使用者手勢，執行螢幕擷取，自擷取螢幕中提取文字，決定與使用者手勢關連之位置資料，及使位置資料與提取文字相關聯以決定選定文字。計算裝置可使用選定文字執行一或更多個額外的後續動作，及顯示執行該等額外動作之額外結果。使用者在檢視額外結果等類似物之同時可執行另一使用者手勢，從而獲得嵌套水平的後續動作及結果。

由此，在媒體檔案之展示期間，使用者手勢可使媒體檔案所顯示之諸如字或詞組之文字得以選擇。使用選定文字及向使用者自動顯示之結果，可自動地執行多個動作。以此方式，使用者可輕鬆獲得關於在媒體檔案之展示期間顯示之字或詞組的額外資訊。

第6圖是根據一些實施方式之示例性流程600之流程圖，該示例性流程600包括偵測輕敲及按住手勢。流程600可(但並非必須)由第1圖、第2圖、第3圖或第4圖之計算裝置102執行。

在602中，可在媒體檔案之展示期間偵測到輕敲及按住手勢。例如，在第1圖中，輸入處理程式模組118可偵測包括使用者手勢136之使用者輸入134。使用者手勢136可包括第4圖之輕敲及按住手勢402。

在604中，媒體檔案之展示(例如，放映)可暫停。在606中，可擷取初始螢幕。例如，在第1圖中，回應於決定使用者手勢136是輕敲及按住手勢(例如第4圖中之輕敲及按住手勢402)，輸入處理程式模組118可命令媒體放映模組114暫停媒體檔案130之放映。輸入處理程式模組118可命令螢幕擷取模組116擷取發生輕敲及按住手勢之初始螢幕。

在608中，可偵測額外的使用者輸入(例如，在按住之同時拖曳之手勢)。在610中，可擷取額外的螢幕。例如，在第1圖中，輸入處理程式模組118可偵測到使用者手勢136包括在按住之同時拖曳之手勢404。作為回應，輸入處理程式模組118可命令媒體放映模組114展示媒體檔案130之額外部分，直至在按住之同時拖曳之手勢已完成(例如直至拖曳已停止或按住被釋放)。在媒體放映模組114在展示媒體檔案130之額外部分之同時，輸入處理程式模組118可命令螢幕擷取模組116擷取額外螢幕，直至在按住之同時拖曳之手勢已完成。

在612中，可自螢幕擷取提取文字，及可決定位置資料。在614中，可基於螢幕擷取及位置資料決定選定文字。例如，在第1圖中，文字提取模組120可自擷取螢幕(例如初始螢幕及額外螢幕)中提取文字。輸入處理程式模組118可決定與輕敲及按住手勢及在按住之同時拖曳之手勢關連之位置資料140。文字辨識模組122可基於螢幕擷取132、位置資料140或提取文字142中之一或更多者來決定選定文字144。

在616中，可決定與選定文字關連之上下文。在一些情況下，如在選定文字144有歧義或為常出現字時，上下文決定模組124可決定上下文146。上下文146可包括提取文字142之一或更多個部分，該等部分鄰近於選擇文字144。

在618中，可自動地執行一或更多個後續動作。在620中，可顯示該等後續動作之結果。例如，在第1圖中，後續動作模組128可自動執行後續動作150及自動地顯示結果152。可基於選定文字144、上下文146、預設動作148，或使用者喜好設定126中之一或更多者來選擇後續動作150。

若使用者在檢視結果時執行使用者手勢，則流程可返回至602。例如，使用者可執行使用者手勢以自所顯示結果中選擇文字。計算裝置102可偵測使用者手勢，執行螢幕擷取，自擷取螢幕中提取文字，決定與使用者手勢關連之位置資料，及使位置資料與提取文字相關聯以決定選定文字。計算裝置可使用選定文字執行一或更多個額外的後續動作，及顯示執行該等額外動作之額外結果。使用者在檢視額外結果等類似物之同時可執行另一使用者手勢，從而獲得嵌套水平之後續動作及結果。

由此，在媒體檔案之展示期間，使用者手勢可使由媒體檔案顯示諸如詞組之文字得以選擇。詞組可跨過媒體檔案之多個頁(或框)。使用選定文字，及向使用者自動顯示之結果，可自動地執行多個動作。以此方式，使用者可輕鬆獲得關於在媒體檔案之展示期間顯示之詞組的額外資訊。

示例性計算裝置及環境

第7圖圖示計算裝置700及環境之示例性配置，該計算裝置及環境可用以實施本文所述之模組及功能。例如，計算裝置700可表示計算裝置102或伺服器104中之一或更多者。計算裝置700可包括一或更多個處理器702、記憶體704、一或更多個通信介面706、顯示器裝置708(例如，第1圖之觸控螢幕顯示器110)、其他輸入/輸出(I/O)裝置710，及一或更多個大容量儲存裝置712，上述各者能夠經由系統匯流排714或其他適合之連接彼此通信。

處理器702可包括單個處理單元或數個處理單元，所有該等處理單元可包括單一或多個計算單元或多個核心。處理器702可實施為一或更多個微處理器、微電腦、微控制器、數位信號處理器、中央處理單元、狀態機、邏輯電路系統，及/或基於操作指令操縱信號之任何裝置。除了其他能力之外，處理器702可經配置以取得及執行儲存在記憶體704、大容量儲存裝置712，或其他電腦可讀取媒體中之電腦可讀取指令。

記憶體704及大容量儲存裝置712是用於儲存指令之電腦儲存媒體之實例，該等指令由處理器702執行以執行上述多個功能。例如，記憶體704一般可同時包括揮發性記憶體及非揮發性記憶體(例如，隨機存取記憶體(random access memory；RAM)、唯讀記憶體(read-only memory；ROM)，或類似記憶體)。此外，大容量儲存裝置712一般可包括硬碟驅動器、固態驅動器、可移動媒體，包括外部及可移動驅動器、記憶卡、快閃記憶體、軟碟、光碟(例如，緊密光碟(Compact Disk；CD)、數位視訊光碟(Digital Versatile Disk；DVD))、儲存陣列、網路附加儲存器、儲存區域網路，或類似物。記憶體704和大容量儲存裝置712在本文中可被共同稱作記憶體或電腦儲存媒體，及可為能夠將電腦可讀取指令、處理器可執行程式指令作為電腦程式碼儲存之媒體，該電腦程式碼可由處理器702執行，處理器702為經配置以用於執行本文中之實施中所述之操作及功能之特定機器。

計算裝置700亦可包括一或更多個通信介面706以用於諸如經由網路、直接連接等方式與其他裝置交換資料，如上所論述。通信介面706可有助於多種網路及協定類型內之通信，該等網路及協定類型包括有線網路(例如，局域網(local area network；LAN)、電纜，等)及無線網路(例如，無線局域網(wireless local area network；WLAN)、蜂巢網路、衛星，等等)、網際網路，及類似物。通信介面706亦可提供與外部儲存器(未圖示)之通信，如在儲存陣列、網路附加儲存器、儲存局域網等中通信。

在一些實施方式中可包括諸如監視器之顯示器裝置 708以用於向使用者顯示資訊及影像。其他I/O裝置710可為接收來自使用者之多種輸入及向使用者提供多種輸出之裝置，及可包括鍵盤、遙控器、滑鼠、印表機、聲訊輸入/輸出裝置，等等。

記憶體704可包括根據本文所述之實施方式用於回應於在媒體檔案展示期間接收到的使用者手勢而自動執行後續動作之模組及組件。在圖示之實例中，記憶體704包括媒體放映模組114、螢幕擷取模組116、輸入處理程式模組118、文字提取模組120、文字辨識模組122、上下文決定模組124，及後續動作模組128。

記憶體704亦可包括本文所述之其他資料及資料結構，如媒體檔案130、使用者輸入134、使用者喜好設定126及結果152。記憶體704可進一步包括一或更多個其他模組716，如作業系統、驅動程式、通信軟體，等等。記憶體704亦可包括其他資料718，如在執行上述功能之同時儲存之資料，及由其他模組716使用之資料。

本文所述之示例性系統及計算裝置僅為適用於一些實施方式之實例，及並非旨在暗示任何針對可實施本文所述之流程、組件，及特徵的環境、架構，及框架之使用或功能範疇的限制。由此，本文中之實施方式可在眾多環境或架構中操作，及可在通用及專用計算系統或具有處理能力之其他裝置中得以實施。一般情況下，參考附圖而描述之任何功能可藉由使用軟體、硬體(例如固定邏輯電路系統)，或該等實施之組合而經實施。如本文中使用之術語「模組」、「機構」，或「組件」一般表示軟體、硬體，或可經配置以實施規定功能之軟體與硬體之組合。例如，在軟體實施方式之情況下，術語「模組」、「機構」，或「組件」可表示程式碼(及/或聲明類型的指令)，該程式碼在處理裝置或裝置(例如中央處理單元(center processing unit；CPU)或處理器)上經執行時執行規定的任務或操作。程式碼可儲存在一或更多個電腦可讀取儲存裝置中或在其他電腦儲存裝置中。由此，本文所述之流程、組件，及模組可由電腦程式產品實施。

如本文中所使用，「電腦可讀取媒體」包括電腦儲存媒體但不包括通信媒體。電腦儲存媒體包括以任何方法或技術經實施以用於儲存資訊(如電腦可讀取指令、資料結構、程式模組，或其他資料)之揮發性及非揮發性媒體、可移動及非可移動媒體。電腦儲存媒體包括但不限於隨機存取記憶體(random access memory；RAM)、唯讀記憶體(read-only memory；ROM)、電可擦可程式化唯讀記憶體(electrically erasable programmable read only memory；EEPROM)、快閃記憶體或其他記憶體技術、緊密光碟唯讀記憶體(Compact Disk-Read Only Memory；CD-ROM)、數位通用光碟(Digital Versatile Disk；DVD)或其他光學儲存器、磁帶盒、磁帶、磁碟儲存器或其他磁性儲存裝置，或可用以儲存資訊以供計算裝置存取之任何其他非傳輸媒體。

相反，通信媒體可包含電腦可讀取指令、資料結構、程式模組，或位於調變資料信號中之其他資料，如載波。如本文中所定義，電腦儲存媒體不包括通信媒體。

此外，本揭示案提供多個示例性實施，如附圖中之描述及圖示。然而，本揭示案並非限定於本文中描述及圖示之實施方式，而是可延伸至其他實施，如彼等熟習該項技術者已知或將已知。本說明書中，對「一個實施方式」、「此實施方式」、「該等實施方式」，或「一些實施方式」之引用意謂著所描述之特定特徵、結構，或特性被納入至少一個實施方式中，及該等詞組在本說明書中多個位置之出現並非必須全部係指相同實施。

結論

儘管已使用特定於結構特徵及/或方法操作之語言描述標的物，但所附之申請專利範圍中定義之標的物並非限定於上述特定特徵或操作。相反，上述之特定特徵及操作作為實施該專利申請範圍之實例形式得以揭示。本揭示案旨在涵蓋所揭示實施之任何及全部改編或變動，及隨後的專利申請範圍將不被視作限定於本說明書中所揭示之特定實施。