TWI795081B

TWI795081B - 於行動電子裝置上之媒體內容之裝置上即時翻譯

Info

Publication number: TWI795081B
Application number: TW110142688A
Authority: TW
Inventors: 布蘭登查爾斯巴貝羅; 沙納茲查克; 提姆萬特蘭; 孔德卡沙米伊克拉姆; 尼古拉拉迪切维奇; 普拉薩德摩達理; 傑佛瑞羅伯特皮特曼; 斯韋托斯拉夫加諾夫; 葛齊; 強納森Ｄ威爾森; 瀨野正和; 辜新星
Original assignee: 美商谷歌有限責任公司
Priority date: 2020-12-18
Filing date: 2021-11-17
Publication date: 2023-03-01
Also published as: US20230376699A1; TW202226042A; TW202328971A; WO2022132168A1; TWI830627B

Abstract

本文件描述於一行動電子裝置(102)上之媒體內容之裝置上即時翻譯之方法及系統。該翻譯係由該電子裝置之一作業系統(104)管理及執行，而非在於該電子裝置上執行之一特定應用程式(210)內管理及執行。該作業系統可翻譯媒體內容，包含在該電子裝置之一顯示裝置(108)上顯示的視覺內容(306)或由該電子裝置輸出的音訊內容(304)。由於該翻譯係在OS層級，因此該翻譯可跨該電子裝置上之各種(包含所有)應用程式及各種內容自動地或基於一使用者輸入來實施以提供一一致翻譯體驗，此係經由將經翻譯文字顯示為視訊內容之字幕或螢幕上文字之一替代之一系統UI疊合(120)來提供。

Description

於行動電子裝置上之媒體內容之裝置上即時翻譯

翻譯服務已在全世界廣泛使用以促進跨語言障礙之交流。機器翻譯之進步已增加翻譯之準確度，包含使用標點符號、俚語、慣用語、口語等。在行動裝置上，翻譯服務通常構建於一應用程式內部以僅在該應用程式(包含一網頁瀏覽器或虛擬助理)內運作。此等習知翻譯服務通常經由一網路連接與一後端伺服器通信以容許該後端伺服器運算翻譯。因此，習知翻譯服務通常限於行動裝置上之一應用程式內之特定上下文。

本文件描述於一行動電子裝置上之媒體內容之裝置上即時翻譯之方法及系統。該翻譯係由該電子裝置之一作業系統(OS)管理及執行，而非在於該電子裝置上執行之一特定應用程式(app)內管理及執行。該OS可翻譯媒體內容，包含在電子裝置之一顯示裝置上顯示之文字或由電子裝置輸出之音訊。由於翻譯係在OS層級，因此翻譯可跨電子裝置上之各種(例如，所有)應用程式及各種(例如，所有)內容來實施以提供一一致翻譯體驗。OS層級翻譯可經由顯示對應於媒體內容之經翻譯文字之一系統使用者介面(UI)疊合(overlay)來提供。該系統UI疊合可在螢幕上文字上方應用以將該文字重新呈現為經翻譯文字(依一使用者偏好語言)，此看起來類似於應用程式中之原生內容。此外，系統UI疊合可在電子裝置上之幾乎任何應用程式(包含第一方(1P)應用程式及第三方(3P)應用程式)上使用，而無需特殊整合。

在一些態樣中，揭示一種用於於一行動電子裝置上之媒體內容之裝置上即時翻譯之方法。該方法包含在該行動電子裝置之一作業系統層級識別由運行於該電子裝置上之一應用程式輸出之媒體內容之一原始人類語言。在一實例中，該原始人類語言不同於由該行動電子裝置之一使用者定義之一目標人類語言。此外，該方法包含在該作業系統層級將該媒體內容自該媒體內容之該原始人類語言翻譯成依該目標人類語言之經翻譯文字。該媒體內容可基於儲存於該行動電子裝置之一記憶體中之翻譯模型來翻譯。另外，該方法包含在該作業系統層級產生一系統UI疊合以用於經由該行動電子裝置之一顯示裝置進行顯示。該方法亦包含在該作業系統層級在對應於該應用程式之經顯示內容之一部分上方呈現該系統UI疊合，其中該系統UI疊合包含該經翻譯文字。

在其他態樣中，揭示一種行動電子裝置。該行動電子裝置包含一顯示裝置、一或多個處理器，及記憶體。該記憶體儲存可用於將文字自一原始人類語言翻譯為一目標人類語言之翻譯模型。另外，該記憶體儲存指令，該等指令在藉由該一或多個處理器執行時引起該一或多個處理器實施一翻譯管理器模組以藉由執行上文所揭示之方法來提供由該電子裝置輸出之媒體內容之裝置上即時翻譯。

提供此[發明內容]以介紹下文在[實施方式]及[圖式簡單說明]中進一步描述之關於於一行動電子裝置上之媒體內容之裝置上即時翻譯之簡化概念。本發明內容並不旨在識別所主張標的物之基本特徵，亦不旨在用於判定所主張標的物之範疇。

概述

本文件描述用於於一行動裝置上之媒體內容之裝置上即時翻譯之方法及系統。本文中所描述之技術提供可跨於裝置上執行之各種(例如，所有)應用程式實施之OS層級翻譯，此提供一一致使用者體驗。此等方法及系統可使裝置之一使用者能夠依幾乎任何語言觀看媒體，讀取幾乎任何文字及依幾乎任何語言向另一人傳遞訊息。使用一系統使用者介面(UI)疊合，可用使用者可重新設定大小且在螢幕上四處移動之經翻譯字幕之一框將翻譯應用於視訊內容(例如，經錄製或實時)及音訊內容(例如，一播客)。類似地，使用者可將系統UI疊合應用於螢幕上文字以將該文字重新呈現為依另一語言之經翻譯文字，其中重新呈現幾乎不可見且表現為一應用程式內之原生內容。在螢幕上文字上方提供系統UI疊合可確保裝置之通常有限的螢幕空間被有效利用，且可確保一使用者與裝置互動之體驗具有最小變化。此外，系統UI疊合可應用於一聊天對話，其中傳入文字可依使用者之偏好語言翻譯及重新呈現，且傳出文字可依接收者之偏好語言翻譯及發送。由於OS層級翻譯可使用一特定應用程式外部之一系統UI疊合來實施，因此翻譯可應用於第一人稱及第三人稱應用程式，而無需特殊整合。另外，由於翻譯係在裝置上而非經由一網路執行，因此翻譯功能性係隱私友好的且無需加密進行傳輸。在電子裝置之作業系統層級而非在於電子裝置上執行之特定應用程式內管理及執行翻譯可意謂電子裝置上之各個別應用程式不必在內部構建其自身的各自翻譯服務。此可導致應用程式更簡單、更小，且因此在電子裝置之記憶體中佔用更少儲存空間。

雖然用於於一行動裝置上之媒體內容之裝置上即時翻譯之所描述方法及系統之特徵及概念可在任何數目個不同環境中實施，但態樣係在以下實例之背景內容中進行描述。 實例性裝置

圖1繪示具有一作業系統104 (OS 104)及一翻譯管理器模組106之一行動電子裝置(例如，電子裝置102)之一實例性實施方案100，該翻譯管理器模組106在OS層級執行以提供於電子裝置102上之呈經由電子裝置102之一顯示裝置108展現之文字形式的媒體內容之裝置上即時翻譯。在一項實例中，電子裝置102經由顯示裝置108-1接收及顯示一文字訊息110，該文字訊息110具有依對電子裝置102之一使用者116而言係外國的一第一人類語言(例如，一原始人類語言114)之文字112 (例如，依使用者116之一非本國語言或使用者116不理解之一語言)。此處，原始人類語言114係德語。基於使用者定義之偏好或使用者選擇，OS 104可實施翻譯管理器模組106以辨識文字112之原始人類語言114及將文字112 (自動地或基於使用者選擇)翻譯為一第二人類語言(例如，一目標人類語言118，其係一使用者偏好語言或一使用者選擇之語言)。OS 104接著可提供一系統UI疊合120(包含依目標人類語言118之經翻譯文字122)。

如本文中所描述，用於即時翻譯之此等技術可跨運行於電子裝置102上之不同應用程式(包含即時訊息傳遞應用程式、音訊或視訊播放器及實時串流視訊應用程式)實施。在視訊重播、實時串流視訊呈現或音訊重播之實施方案中，經翻譯文字可呈現為字幕(caption或subtitle)。

更詳細地，考量繪示來自圖1之電子裝置之一實例性實施方案200之圖2。圖2之電子裝置102經繪示為具有各種實例性裝置，包含一智慧型電話102-1、一平板電腦102-2、一膝上型電腦102-3、一桌上型電腦102-4、一運算手錶102-5、運算眼鏡102-6、一遊戲系統102-7、一家庭自動化及控制系統102-8及一微波爐102-9。電子裝置102亦可包含其他裝置，例如，電視機、娛樂系統、音訊系統、汽車、無人機、軌跡墊、繪圖板、迷你筆記型電腦、電子閱讀器、家庭安全系統及其他家用電器。應注意，電子裝置102可為行動的、可穿戴的、不可穿戴但行動的，或相對固定的(例如，桌上型電腦及電器)。

電子裝置102亦包含一或多個電腦處理器202及包含記憶體媒體206及儲存媒體208之一或多個電腦可讀媒體204。實施為電腦可讀媒體204上之電腦可讀指令之應用程式210及/或作業系統104可藉由電腦處理器202執行以提供本文中所描述之一些或所有功能性。例如，電腦可讀媒體204可包含翻譯管理器模組106 (其係在圖3中更詳細描述)。翻譯管理器模組106經組態以提供電子裝置102上之媒體內容之裝置上、OS層級、即時翻譯。在態樣中，翻譯管理器模組106基於包含由使用者在翻譯之前定義之翻譯設定之系統設定212提供此即時翻譯。系統設定212可由使用者在裝置設置期間或之後之任何時間設定。

電子裝置102亦可包含一網路介面214。電子裝置102可使用網路介面214以用於經由有線、無線或光學網路傳送資料。藉由實例且非限制，網路介面214可經由一區域網路(LAN)、一無線區域網路(WLAN)、一個人區域網路(PAN)、一廣域網路(WAN)、一企業內部網路、網際網路、一同級間網路、點對點網路或一網狀網路傳送資料。

翻譯管理器模組106之各項實施方案可包含一系統單晶片(SoC)、一或多個積體電路(IC)、具有嵌入式處理器指令或經組態以存取儲存於記憶體中之處理器指令之一處理器、具有嵌入式韌體之硬體、具有各種硬體組件之一印刷電路板，或其等之任何組合。

電子裝置102亦包含可包含各種感測器之任一者之一或多個感測器216，包含一音訊感測器(例如，一麥克風)、一觸控輸入感測器(例如，一觸控螢幕)、一影像擷取裝置(例如，一相機或視訊攝影機)、近接感測器(例如，電容式感測器)，或一環境光感測器(例如，光電偵測器)。

電子裝置102亦可包含一顯示裝置(例如，顯示裝置108)。顯示裝置108可包含任何合適顯示裝置，例如，一觸控螢幕、一液晶顯示器(LCD)、薄膜電晶體(TFT) LCD、一平面內切換(IPS) LCD、一電容式觸控螢幕顯示器、一有機發光二極體(OLED)顯示器、一主動矩陣有機發光二極體(AMOLED)顯示器、超級AMOLED顯示器等等。顯示裝置108可被稱為一螢幕，使得內容可在螢幕上顯示。

圖3更詳細繪示來自圖1之翻譯管理器模組之一實例性實施方案300。儘管圖3將各種實體及組件展示為翻譯管理器模組106之部分，但此等實體及組件之任一者可與翻譯管理器模組106分開，使得翻譯管理器模組106存取其等及/或與其等通信以管理電子裝置102上之媒體內容之裝置上即時翻譯。

在圖3中，翻譯管理器模組106可包含經組態以擷取媒體內容(例如，音訊內容304、視覺內容306)之一內容擷取模組302。音訊內容304可包含由電子裝置102上之一應用程式210 (例如，音樂播放器、視訊播放器、影像電話(videotelephony)應用程式、實時串流視訊播放器)輸出之音訊。視覺內容306可包含在顯示裝置108上顯示之任何文字，包含短訊息服務(SMS)訊息、聊天訊息、電子郵件、新聞報道、網站、視訊之字幕(subtitles to videos、captions to videos)等等。

翻譯管理器模組106亦可包含一自動話音辨識(ASR)轉錄模組308、光學字元辨識(OCR)模組310、一語言識別器模組312、一模型管理器模組314、一翻譯控制模組316、翻譯模型318、系統UI疊合120及呈現模型320。

ASR轉錄模組308經組態以轉錄由內容擷取模組302擷取之音訊內容304。語言識別器模組312經組態以判定音訊內容304及/或視覺內容306之一語言。在一些態樣中，語言識別器模組312提供識別音訊內容304之人類語言之一指示(例如，語言ID)以使ASR轉錄模組308能夠將音訊內容304轉錄成依對應人類語言之視覺內容。語言識別器模組312亦可將語言ID提供至翻譯控制模組316以使翻譯控制模組316能夠識別媒體內容之原始人類語言並起始翻譯。

OCR模組310經組態以將文字之影像轉換成機器編碼之文字。例如，OCR模組310可將視覺內容306轉換成可由翻譯控制模組316用於翻譯之一形式。使用由OCR模組310輸出之OCR結果，語言識別器模組312可識別視覺內容306之語言且將語言ID提供至翻譯控制模組316。

翻譯模型318 (例如，級聯模型集)包含對人類語言及人類語言之間的翻譯進行訓練之機器學習模型。翻譯模型318可包含在一對特定人類語言(例如，德語、法語、英語、西班牙語、葡萄牙語、國語、日語、阿拉伯語、印地語、亞美尼亞語)自一種語言翻譯為另一種語言時對其等進行訓練之模型。翻譯模型318亦可包含對一特定人類語言之語義自然語言理解(例如，句子片段、俚語、口語及自片語至片語之上下文)進行訓練之模型。一些人類語言具有代詞脫落(pronoun drop)，其中代詞(例如，他、她、我們、我、你)可脫落。因而，孤立之一句子可能無法提供足夠資訊來知道代詞係(例如)「他」或「她」，此可導致翻譯錯誤及缺陷。當自具有代詞脫落之一第一語言(例如，西班牙語)翻譯為需要存在代詞之一第二語言(例如，英語)時，可需要預測代詞並將其添加(或復原)至經翻譯文字。因此，一些翻譯模型318可經訓練以分析及判定一或多個前置片語之上下文以使一代詞能夠在一經翻譯片語中復原，從而使翻譯成為一上下文翻譯。

另外，翻譯模型318可包含對標點符號進行訓練之模型。在一些態樣中，標點符號模型可經訓練以判定、預測及提供對應於音訊內容304中之未說出之標點符號之標點符號(例如)以用於轉錄。標點符號模型亦分析視覺內容306之標點符號以在經翻譯文字中提供適當標點符號以用於提高翻譯之準確度。

模型管理器模組314經組態以管理翻譯模型318。例如，模型管理器模組314可基於使用者輸入(例如，在裝置設置時、在翻譯服務之設置時或在一翻譯請求時)經由一網路自一或多個遠端源擷取用於一或多種使用者選擇之人類語言之適當翻譯模型318。此外，模型管理器模組314可聚合翻譯模型318且將其等集中到一起在電子裝置102上使用。模型管理器模組314亦可管理對翻譯模型318之更新且提供對翻譯模型318之一或多者之存取以幫助轉錄及/或翻譯。模型管理器模組314亦可指示翻譯模型318中是否缺失(例如，不包含)一所請求之翻譯模型且因此需要自一遠端源下載或以其他方式擷取。

翻譯控制模組316經組態以管理經擷取之媒體內容的即時翻譯。在態樣中，翻譯控制模組316與模型管理器模組314通信以存取翻譯模型318以進行翻譯。該存取係至少部分基於由語言識別器模組312提供之(若干)語言ID。除了識別經擷取之媒體內容之語言(例如，原始人類語言114)的語言ID之外，語言識別器模組312亦可提供識別一目標語言(例如，使用者偏好或使用者選擇之語言)以進行翻譯之一目標語言ID。在態樣中，目標語言ID係自系統設定(例如，來自圖2之系統設定212)獲得。系統設定212可基於指示使用者偏好語言之一使用者輸入來定義目標人類語言118。目標人類語言118可經預定義(例如，先前由使用者116在系統設定212中選擇，包含在裝置設置期間)或基於回應於經擷取之媒體內容中之一外語之識別而展現之一提示而經使用者選擇。語言識別器模組312、模型管理器模組314或翻譯控制模組316之任一者可基於自系統設定212獲得之資訊來判定目標人類語言118。系統設定212亦可指示由使用者為翻譯而選擇之一熟練度。在一實例中，系統設定212可提供不同翻譯熟練度，包含翻譯所有傳入訊息之一第一選項、用於逐條訊息翻譯之一第二選項，或用於逐字翻譯之一第三選項。使用者116可在系統設定212中選擇一熟練度以使電子裝置102能夠依選定之熟練度來自動執行即時翻譯。以此方式，若使用者116對一外語具有一定瞭解且僅希望翻譯一特定片語或字詞，則使用者可指示待翻譯哪一(些)字詞或片語，而非自動翻譯所有傳入訊息。因此，透過系統設定212 (例如，電子裝置102上之翻譯設定)，使用者116可跨裝置客製化自動翻譯體驗。

在一實例中，使用者116可選擇一或多種人類語言以使其可用於裝置上即時翻譯。基於使用者選擇，模型管理器模組314可起始對應於(若干)選定人類語言之適當翻譯模型318的下載。另外，使用者116可選擇一偏好語言，該偏好語言可用於自動翻譯，或替代性地，在提示使用者進行翻譯時作為一第一建議之語言。翻譯設定可在裝置設定中存取，且可具有一切換(toggle)控制項以將自動翻譯服務切換打開及關閉。亦可在電子裝置102上提供快捷鍵以選擇加入或取消翻譯，將翻譯切換打開及關閉，或存取偏好。此等快捷鍵係在OS層級提供，且未構建於電子裝置102上之一特定應用程式(「app」)內而因此限於該特定應用程式。因此，可跨在電子裝置102上展現之應用程式及案例，提供一一致使用者體驗流程及實施方案。

使用經擷取之媒體內容(例如，音訊內容304或視覺內容306)、翻譯模型318、系統設定212及來自模型管理器模組314及語言識別器模組312之一或多者的輸入，翻譯控制模組316可將經擷取之媒體內容翻譯成依目標人類語言118的經翻譯文字(例如，經翻譯文字122)。

翻譯管理器模組106 (或翻譯控制模組316)經組態以產生一疊合(例如，系統UI疊合120)以在顯示裝置108上顯示。該疊合包含經翻譯文字122。在態樣中，疊合可包含一使用者可選擇之控制項以將經翻譯文字122改變為一不同目標語言或回復至原始人類語言114。此外，翻譯控制模組316可存取呈現模型320以依實質上類似於依原始人類語言114之最初顯示文字之風格及格式之一風格及格式來展現經翻譯文字122。在一實例中，呈現模型320係用於引起經翻譯文字實質上匹配應用程式210之原生內容之一或多個視覺特性(例如，大小、字體、風格、格式、色彩)。

此等及其他能力及組態，以及圖1至圖3之實體起作用及互動之方式係在下文更詳細闡述。此等實體可經進一步劃分、組合等等。圖1之實施方案100及圖2至圖12之詳細圖解說明繪示能夠採用所描述技術之許多可能環境及裝置的一些。

圖4繪示電子裝置上之一聊天應用程式中之整頁翻譯之一實例性實施方案400。實例性實施方案400在不同例項402-1、402-2及402-3中繪示一顯示器402 (例如，顯示裝置108)。在例項402-1中，顯示多個傳入聊天訊息404。基於預定義之使用者偏好(例如，在裝置設定中設定之翻譯設定)，電子裝置102判定聊天訊息404待依不同於一使用者偏好語言(例如，英語)之一人類語言(例如，葡萄牙語)。接著，電子裝置102產生一疊合406 (例如，來自圖1之系統UI疊合120)，從而提示使用者將聊天訊息404翻譯為英語。若使用者選擇疊合406中之提示，則電子裝置102翻譯經顯示之聊天訊息404。

如例項402-2中所展示，電子裝置102可在聊天應用程式之頂部上產生一或多個系統UI疊合408 (例如，用於各個別訊息之一疊合或具有多個(包含所有)經翻譯訊息之一單個疊合)以將聊天訊息404重新呈現為依英語之經翻譯文字410。另外，疊合406可指示聊天訊息之原始人類語言114及經翻譯文字之目標人類語言118。例如，疊合406展示「葡萄牙語à 英語」以指示原始聊天訊息係依葡萄牙語且經顯示文字(例如，系統UI疊合408中之經翻譯文字410)當前係依英語(其係用粗體及下劃線強調)。可使用任何合適強調，包含突顯、斜體、色彩、大小、字體等等。在態樣中，疊合406可充當一切換控制項以基於使用者選擇在原始人類語言114與目標人類語言118之間來回切換。在一實例中，若使用者選擇疊合406或疊合406中之原始人類語言114 (例如，「葡萄牙語」)，則電子裝置102可將經顯示文字回復至葡萄牙語，如例項402-3中所展示。例項402-3中之經顯示文字可在系統UI疊合中依原始人類語言114顯示。在另一實例中，可移除系統UI疊合以在聊天應用程式中依原始人類語言114顯示底層聊天訊息404。疊合406亦可強調原始人類語言114 (例如，藉由展示「 葡萄牙語 à英語」)以指示經顯示文字(例如，聊天訊息404)當前係依葡萄牙語。使用疊合406，使用者可將顯示器在目標人類語言118與原始人類語言114之間(例如，在例項402-2與402-3之間)來回切換。

圖5繪示電子裝置上之單訊息翻譯之一實例性實施方案500。如上文所描述，使用者可藉由針對即時翻譯設定一所要熟練度來客製化翻譯體驗。所繪示之實例係基於其中使用者已設定用於逐條訊息翻譯之翻譯設定之一情境。實例性實施方案500在不同例項502-1、502-2及502-3中繪示一顯示器502 (例如，顯示裝置108)。在例項502-1中所展示之實例中，電子裝置102已辨識經顯示之聊天訊息504中之並非使用者偏好語言之一人類語言且已產生一疊合(例如，疊合506)來提示使用者翻譯聊天訊息504。使用者可選擇一個別訊息來翻譯，而非翻譯在顯示器502上顯示之所有聊天訊息504。也許使用者對原始人類語言具有足以閱讀一些但非全部聊天訊息504之有限理解。因此，使用者可希望翻譯一單個聊天訊息而非所有經顯示之聊天訊息。

如圖5中所展示，電子裝置102可基於一複製並翻譯命令執行一單訊息翻譯。例如，使用者可選擇(例如，觸控輸入508)聊天訊息504中之經突顯以指示使用者選擇之一聊天訊息504。在態樣中，可複製選定聊天訊息之文字，如在例項502-2中藉由一UI元素510指示。在一些例項中，使用者選擇可起始具有一可選擇複製命令之一選單之一顯示。在另一實例中，使用者選擇可引起電子裝置102自動複製文字選定聊天訊息之文字。此外，電子裝置102可提示使用者翻譯經複製文字(包含經由疊合506)。基於一使用者輸入，電子裝置102翻譯經複製文字且經由顯示器502向使用者展現經翻譯文字512 (例如，在例項502-3中展示)。在一些態樣中，經翻譯文字512可包含於具有原始人類語言114及目標人類語言118之一指示之疊合506中。替代性地，經翻譯文字512可在經複製文字上方之一分開的疊合中顯示為依目標人類語言118之經複製文字之重新呈現。在另一實例中，經翻譯文字512可連同經複製文字一起包含於經複製文字上方之一疊合中，使得該疊合同時包含依原始人類語言114之經複製文字及依目標人類語言118之經翻譯文字兩者。

電子裝置102亦可基於上文所描述之複製並翻譯命令且基於針對逐字詞翻譯設定之翻譯設定來翻譯一單個字詞。例如，使用者可(例如)選擇聊天訊息504之一者中之一個別字詞。自動地回應於字詞之使用者選擇或回應於起始複製並翻譯之一額外使用者輸入，可複製選定字詞並將其翻譯為目標人類語言118。接著可在疊合506中或在可接近於選定字詞定位之一分開的疊合中展現經翻譯字詞。因此，基於使用者選擇，可將裝置上即時翻譯應用於在顯示裝置108上顯示之一單個術語、多個術語、一片語、多個片語或所有文字。

圖6繪示在電子裝置上之訊息傳遞應用程式中之傳出訊息之自動翻譯之一實例性實施方案600。實例性實施方案600在不同例項602-1、602-2及602-3中繪示一顯示器602 (例如，顯示裝置108)。在例項602-1中所展示之實例中，聊天訊息604係依葡萄牙語接收及顯示，如藉由疊合606所指示。應用程式包含供一使用者輸入文字(例如，一傳出文字訊息)之一輸入框608。若啟用傳入訊息之自動翻譯(例如，在圖4中所描述)，則亦可啟用傳出訊息之自動翻譯。在例項602-2中所繪示之實例中，已啟用自動翻譯，且聊天訊息604 (來自例項602-1)現顯示為依目標人類語言118之經翻譯文字610。此處，使用者已藉由經由一鍵盤(例如，虛擬鍵盤614)提供打字輸入或藉由經由電子裝置102之一麥克風(未展示)提供一語音命令(例如，話音)來輸入一草稿訊息612，其中該語音命令被轉錄成草稿訊息612。在輸入草稿訊息612時，或在完成草稿訊息612時，電子裝置102可翻譯草稿訊息612且在顯示器602上在一疊合618 (例如，系統UI疊合120)中提供一翻譯616。在一項實例中，翻譯616及疊合618係在虛擬鍵盤614之頂部處展現。然而，翻譯616及疊合618可在顯示器602上之任何合適位置處展現。

若使用者選擇具有翻譯616之疊合618，則電子裝置102可在傳輸傳出訊息之前用翻譯616替換草稿訊息612。在一實例中，草稿訊息612係由輸入框608中之翻譯616替換，如在例項602-3中所展示。接著，使用者可觸發一「發送」按鈕620以發送翻譯616作為傳出訊息。以此方式，使用者可依一接收者之本國或偏好語言來發送傳出訊息。另外，使用者可選擇一切換命令622以在原始人類語言114與目標人類語言118之間切換。在一些態樣中，使用者可選擇切換命令622以將傳出訊息(例如，替換草稿訊息612之經翻譯文字610)之目標人類語言118改變為一新的目標人類語言。

圖7繪示在電子裝置上之一訊息傳遞應用程式中之傳入訊息之自動翻譯之一實例性實施方案700。該實例性實施方案展示經由一訊息傳遞應用程式互相通信之兩個裝置(例如，一第一裝置702及一第二裝置704)。第一裝置702之一使用者(例如，「John」)說英語且已啟用自葡萄牙語至英語之自動翻譯，如疊合706中所指示。另一方面，第二裝置704之一使用者(例如，「Maria」)說葡萄牙語且已啟用自英語至葡萄牙語之自動翻譯，如疊合708中所指示。因此，本文中所描述之技術使各裝置(例如，分別為第一及第二裝置702及704)能夠觀看依其等偏好人類語言之傳入訊息(例如，分別為訊息710及712)。傳出訊息(例如，分別為訊息714及716)亦可依其等偏好人類語言顯示且在接收時在接收者裝置處進行翻譯。藉由以此方式自動翻譯訊息，使用者需要更少輸入來進行翻譯，從而引起跨語言之交流更簡單、更容易且更快速。

圖8繪示在電子裝置上之一實時視訊呼叫期間之即時話音翻譯之一實例性實施方案800。例如，在不同例項802-1及802-2中展示一顯示器802 (例如，顯示裝置108)。一使用者可正經由一實時串流視訊呼叫應用程式與說外語之一人804進行一視訊呼叫。在一些態樣中，ASR轉錄模組308可經實施以在人804說該外語時提供該外語之字幕806。翻譯管理器模組106可認識到該外語並非裝置之使用者之偏好語言且提供一疊合808-1以提示使用者將話音翻譯為使用者之偏好人類語言。基於一使用者輸入(例如，使用者選擇)，翻譯管理器模組106翻譯字幕且用經翻譯文字810在疊合中重新呈現字幕。例如，例項802-2包含一經擴大疊合808-2 (例如，自例項802-1中之疊合808-1擴大)，該經擴大疊合808-2包含經翻譯文字810。在另一實例中，經翻譯文字810可包含於與疊合808-1分開之另一疊合中。在又另一實例中，疊合808-2可包含經翻譯文字810及原始字幕806兩者以容許使用者同時觀看兩者。

圖9繪示在電子裝置上之一視訊之重播期間之即時話音翻譯之一實例性實施方案900。例如，電子裝置102可運行一媒體播放器應用程式以經由顯示裝置108重播一視訊902。電子裝置102可在視訊902之重播期間自視訊902即時產生音訊(例如，音訊904)之字幕。若針對電子裝置102啟用自動翻譯，則來自圖1至圖3之翻譯管理器模組106可產生一疊合906 (例如，系統UI疊合120)以在經顯示視訊之頂部上或前面顯示。疊合906可被重新設定大小及/或在顯示裝置108上之任何地方移動。在一些態樣中，疊合906直接顯示於由媒體播放器應用程式產生之應用程式內字幕(未展示)之前，使得疊合906表現為依目標人類語言118重新呈現字幕。

在圖9中繪示之實例中，視訊重播應用程式正播放兩個人在一電子裝置上玩一數位遊戲之一視訊。音訊904中之一個語音用英語說「This time I’m going to win. You’ll see!」。ASR轉錄模組308將此英語片語轉錄成英語文字(例如，來自圖3之視覺內容306)。翻譯管理器模組106將英語文字翻譯成在系統設定(例如，來自圖2之系統設定212)中定義之目標人類語言118 (在此實例中，其係西班牙語)。接著，經翻譯文字908係依目標人類語言118在疊合906中呈現以使電子裝置102之使用者能夠閱讀西班牙語片語「Esta vez voy a ganar. ¡Verás!」。在一些態樣中，疊合906可包含經翻譯文字908及原始字幕兩者以容許使用者同時觀看兩者。因此，可由電子裝置102重播任何視訊，且翻譯管理器模組106可經由疊合906 (例如，系統UI疊合120)提供裝置上即時翻譯，而無需系統UI疊合120與視訊重播應用程式之間的特殊整合。 實例性方法

圖10、圖11及圖12分別描繪用於於一行動電子裝置上之媒體內容之裝置上即時翻譯之實例性方法1000、1100及1200。方法1000、1100及1200可藉由電子裝置102執行，該電子裝置102使用翻譯管理器模組106來翻譯媒體內容且產生一OS層級系統UI疊合以將經顯示文字重新呈現為依一目標人類語言之經翻譯文字。方法1100及1200係對方法1000之補充，且視需要結合方法1000執行。

方法1000、1100及1200經展示為指定經執行之操作但不一定限於藉由各自方塊展示之用於執行操作之順序或組合的一組方塊。此外，可重複、組合、重新組織或連結操作之一或多者之任一者以提供廣泛的額外及/或替代方法。在以下論述之部分中，可參考圖1之實例性實施方案100或參考如圖2至圖9中詳述之實體或程序，僅舉例而言對其等進行參考。技術並不限於由一個實體或在一個裝置上操作之多個實體的執行。

在1002，在行動電子裝置之一OS層級識別由運行於電子裝置上之一應用程式輸出之媒體內容之一原始人類語言，其中該原始人類語言不同於由行動電子裝置之一使用者定義之一目標人類語言。在態樣中，電子裝置102之翻譯管理器模組106可識別由運行於電子裝置102上之應用程式210產生之視覺文字之原始人類語言114。視需要，可基於一使用者輸入擷取媒體內容，如下文參考圖11更詳細描述。視需要，方法可繼續進行至圖12以請求額外使用者輸入以用於判定用於翻譯之一目標人類語言，此係在下文更詳細描述。

在1004，識別用於翻譯之一目標人類語言。例如，翻譯管理器模組106基於一使用者偏好人類語言之一使用者選擇識別目標人類語言118。在一些態樣中，使用者選擇係基於一提示接收。在另一實例中，使用者選擇係在先前作為選擇裝置設定之一使用者輸入之部分被接收。

在1006，將媒體內容翻譯成依目標人類語言之經翻譯文字。在一實例中，翻譯管理器模組106利用儲存於電子裝置102之記憶體(例如，儲存媒體208)中之翻譯模型318以將媒體內容翻譯成經翻譯文字。

在1008，經由行動電子裝置之一顯示裝置產生一系統UI疊合以用於顯示。例如，翻譯管理器模組106可產生系統UI疊合120以用於呈現經翻譯文字。

在1010，在對應於應用程式之經顯示內容之一部分上方呈現系統UI疊合，其中系統UI疊合包含經翻譯文字。在一實例中，翻譯管理器模組106在由應用程式210產生之顯示上方或前面呈現系統UI疊合120，且經翻譯文字係在系統UI疊合120內呈現。在一些態樣中，電子裝置102表現為在視覺上用依目標人類語言之經翻譯文字替換依原始人類語言之視覺內容(例如，傳入及傳出文字訊息、視訊之字幕)。

如所提及，可視需要基於參考圖11所描述之用於一複製並翻譯命令之一選用方法1100來擷取媒體內容。在1102，電子裝置102視需要選擇在顯示裝置108上顯示之文字。此選擇可回應於一第一使用者輸入，該第一使用者輸入可為一選擇手勢(例如，輕擊、雙擊、按住不放)。在一實例中，使用者可自透過一即時訊息傳遞應用程式進行之一聊天對話中之複數個傳入文字訊息中選擇一文字訊息。

在1104，電子裝置複製選定文字訊息之文字。選定文字訊息之文字之此複製可係回應於一第二使用者輸入，該第二使用者輸入可為一複製命令(例如，選擇一「複製」選項或按鈕)。電子裝置102在OS層級複製選定文字訊息之視覺內容。

在1106，電子裝置使用經複製文字作為用於翻譯之媒體內容。此可回應於一第三使用者輸入，該第三使用者輸入可為一翻譯命令(例如，選擇一「翻譯」選項或按鈕)以確認翻譯旨在用於經複製文字。儘管1104及1106被描述為基於使用者分開的的使用者輸入(例如，第二使用者輸入及第三使用者輸入)執行之動作，但1104及1106可回應於可包含用以複製並翻譯之一單個命令之第一使用者輸入自動且循序地執行。在1106之後，選用方法1100繼續進行至圖10之1004。

如上文所提及，方法1000可視需要自1002繼續進行至圖12，圖12描繪用於請求使用者輸入以用於判定用於翻譯之一目標人類語言之一方法1200。在1202，產生一提示以請求使用者偏好人類語言之使用者選擇。在態樣中，該提示係經由一系統UI疊合產生。該提示可請求使用者確認使用者是否想要將在顯示裝置108上顯示之媒體內容翻譯為目標人類語言118。

在1204，基於與提示相關聯之一使用者輸入接收使用者選擇。例如，接收確認使用者想要翻譯媒體內容之一使用者輸入。在態樣中，使用者輸入可藉由引起方法1200繼續進行至圖10之1004來起始媒體內容之翻譯。

通常，本文中所描述之組件、模組、方法及操作之任一者可使用軟體、韌體、硬體(例如，固定邏輯電路系統)、手動處理或其等之任何組合來實施。實例性方法的一些操作可在經儲存於在一電腦處理系統之本端及/或遠端之電腦可讀儲存記憶體上之可執行指令的一般背景內容中進行描述，且實施方案可包含軟體應用程式、程式、功能及類似者。替代性地或另外，本文中所描述之功能性之任一者可至少部分由一或多個硬體邏輯組件來執行，包含(但不限於)場可程式化閘陣列(FPGA)、特定應用積體電路(ASIC)、特定應用標準產品(ASSP)、系統單晶片系統(SoC)、複雜可程式化邏輯裝置(CPLD)，及類似者。

下文描述一些實例：

一種用於於一行動電子裝置上之媒體內容之裝置上即時翻譯之方法，該方法包含：在該行動電子裝置之一作業系統層級識別由運行於該電子裝置上之一應用程式輸出之媒體內容之一原始人類語言，該原始人類語言不同於由該行動電子裝置之一使用者定義之一目標人類語言；在該作業系統層級將該媒體內容自該媒體內容之該原始人類語言翻譯成依該目標人類語言之經翻譯文字，該媒體內容基於經儲存在該行動電子裝置之一記憶體中之翻譯模型來翻譯；在該作業系統層級產生一系統UI疊合以用於經由該行動電子裝置之一顯示裝置進行顯示；及在該作業系統層級，於對應於該應用程式之經顯示內容之一部分上方呈現該系統UI疊合，該系統UI疊合包含該經翻譯文字。

該方法可進一步包括基於使用者輸入在該顯示裝置上對該系統UI疊合重新設定大小及移動該系統UI疊合之一或多者。

該方法可進一步包括基於一使用者偏好人類語言之一使用者選擇來識別用於翻譯之該目標人類語言。

該使用者選擇可定義該行動電子裝置之一或多個裝置設定。

該方法可進一步包括：在識別該媒體內容之該原始人類語言之後及在識別該目標人類語言之前，產生一提示以請求該使用者偏好人類語言之該使用者選擇；及基於與該提示相關聯之一額外使用者輸入來接收該使用者選擇。

該媒體內容可包含透過一即時訊息傳遞應用程式進行之一聊天對話的文字訊息，且該媒體內容之該翻譯可包含將該聊天對話之該等文字訊息自動翻譯成該目標人類語言。

該方法可進一步包括，在識別該原始人類語言之前：回應於一第一使用者輸入，自透過一即時訊息傳遞應用程式進行之一聊天對話中的複數個傳入文字訊息選擇一文字訊息；回應於一第二使用者輸入而複製該選定文字訊息；及回應於一第三使用者輸入而使用該選定文字訊息作為用於翻譯之該媒體內容。

基於針對逐字詞翻譯設定之該等裝置設定，該方法可進一步包括，在識別該原始人類語言之前：基於一第一使用者輸入自在該顯示裝置上顯示之作為由該應用程式輸出之該媒體內容之部分之複數個字詞選擇一字詞；複製該選定字詞；及使用該選定字詞作為用於翻譯之該媒體內容。

該媒體內容之該翻譯可包含將透過一即時訊息傳遞應用程式進行之一聊天對話之一或多個傳出文字訊息自動翻譯成該一或多個傳出文字訊息之一接收者之一偏好人類語言。

該媒體內容可包含由該使用者經由該行動電子裝置之一鍵盤或經由藉由該行動電子裝置自該使用者說出之音訊進行之轉錄而輸入之文字；該目標人類語言可對應於由該使用者輸入之該文字之一預期接收者之一偏好人類語言；且可包含於該系統UI疊合中之該經翻譯文字可為可選擇的以作為一傳出文字訊息經由該應用程式發送至該預期接收者。

該呈現可包含使用儲存於該記憶體中之呈現模型以引起該經翻譯文字實質上匹配該應用程式之原生內容之一或多個視覺特性。

該媒體內容可包含音訊內容；該方法可進一步包括使用一自動話音辨識轉錄模組將該音訊內容轉錄成依該原始人類語言之視覺文字；且該媒體內容之該翻譯可包含將該視覺文字翻譯成該目標人類語言以在該系統UI疊合中顯示。

該音訊內容可為經由該應用程式重播或實時串流傳輸之視訊內容之部分；且在重播或實時串流傳輸該視訊內容時，該系統UI疊合可經呈現以包含該經翻譯文字作為該視訊內容之字幕。

該等翻譯模型可包含語義自然語言理解。

一種行動電子裝置包括：一顯示裝置；一或多個處理器；及記憶體，該記憶體儲存：可用於將文字自一原始人類語言翻譯為一目標人類語言之翻譯模型；及指令，該等指令在藉由該一或多個處理器執行時引起該一或多個處理器實施一翻譯管理器模組以藉由執行上文所揭示之方法來提供由該電子裝置輸出之媒體內容之裝置上即時翻譯。總結

儘管已依特定於特徵及/或方法之語言描述於一行動電子裝置上之媒體內容之裝置上即時翻譯的態樣，但隨附發明申請專利範圍之標的並不一定限於所描述之特定特徵或方法。實情係，特定特徵及方法經揭示為於一行動電子裝置上之媒體內容之所主張之裝置上即時翻譯或一對應電子裝置之實例性實施方案，且其他等效特徵及方法旨在在隨附發明申請專利範圍之範疇內。此外，描述各種不同態樣，且將瞭解，各所描述態樣可獨立實施或結合一或多個其他所描述態樣實施。

100:實施方案 102:行動電子裝置/電子裝置 102-1:智慧型電話 102-2:平板電腦 102-3:膝上型電腦 102-4:桌上型電腦 102-5:運算手錶 102-6:運算眼鏡 102-7:遊戲系統 102-8:家庭自動化及控制系統 102-9:微波爐 104:作業系統(OS) 106:翻譯管理器模組 108:顯示裝置 108-1:顯示裝置 110:文字訊息 112:文字 114:原始人類語言 116:使用者 118:目標人類語言 120:系統使用者介面(UI)疊合 122:經翻譯文字 200:實施方案 202:電腦處理器 204:電腦可讀媒體 206:記憶體媒體 208:儲存媒體 210:應用程式 212:系統設定 214:網路介面 216:感測器 300:實施方案 302:內容擷取模組 304:音訊內容 306:視覺內容 308:自動話音辨識(ASR)轉錄模組 310:光學字元辨識(OCR)模組 312:語言識別器模組 314:模型管理器模組 316:翻譯控制模組 318:翻譯模型 320:呈現模型 400:實施方案 402-1:例項 402-2:例項 402-3:例項 404:傳入聊天訊息/聊天訊息 406:疊合 408:系統使用者介面(UI)疊合 410:經翻譯文字 500:實施方案 502-1:例項 502-2:例項 502-3:例項 504:聊天訊息 506:疊合 508:觸控輸入 510:使用者介面(UI)元素 512:經翻譯文字 600:實施方案 602-1:例項 602-2:例項 602-3:例項 604:聊天訊息 606:疊合 608:輸入框 610:經翻譯文字 612:草稿訊息 614:虛擬鍵盤 616:翻譯 618:疊合 620:「發送」按鈕 700:實施方案 702:第一裝置 704:第二裝置 706:疊合 708:疊合 710:訊息 712:訊息 714:訊息 716:訊息 800:實施方案 802-1:例項 802-2:例項 804:人 806:字幕/原始字幕 808-1:疊合 808-2:經擴大疊合/疊合 810:經翻譯文字 900:實施方案 902:視訊 904:音訊 906:疊合 908:經翻譯文字 1000:方法 1002:方塊 1004:方塊 1006:方塊 1008:方塊 1010:方塊 1100:方法 1102:方塊 1104:方塊 1106:方塊 1200:方法 1202:方塊 1204:方塊

本文件中參考以下圖式描述媒體內容之裝置上即時翻譯之一或多項態樣之細節。貫穿圖式使用相同數字來引用相同特徵及組件：圖1繪示實施媒體內容之裝置上即時翻譯之一實例性電子裝置；圖2更詳細繪示來自圖1之實例性電子裝置之一實例性實施方案；圖3更詳細繪示來自圖1之翻譯管理器模組之一實例性實施方案；圖4繪示在電子裝置上之一訊息傳遞應用程式中之整頁翻譯之一實例性實施方案；圖5繪示電子裝置上之單訊息翻譯之一實例性實施方案；圖6繪示在電子裝置上之一訊息傳遞應用程式中之傳出訊息之自動翻譯之一實例性實施方案；圖7繪示在電子裝置上之一訊息傳遞應用程式中之傳入訊息之自動翻譯之實例性實施方案；圖8繪示在電子裝置上之一實時視訊呼叫期間之即時話音翻譯之一實例性實施方案；圖9繪示在電子裝置上之一視訊之重播期間之即時話音翻譯之一實例性實施方案；圖10描繪用於於一行動電子裝置上之媒體內容之裝置上即時翻譯之一方法；圖11描繪用於一複製並翻譯功能之一方法；及圖12描繪用於請求使用者輸入以用於判定用於翻譯之一目標人類語言之一方法。

100:實施方案

102:行動電子裝置/電子裝置

104:作業系統(OS)

106:翻譯管理器模組

108:顯示裝置

108-1:顯示裝置

110:文字訊息

112:文字

114:原始人類語言

116:使用者

118:目標人類語言

120:系統使用者介面(UI)疊合

122:經翻譯文字

Claims

一種用於在一行動電子裝置上之媒體內容之裝置上即時翻譯之方法，該方法包括：在該行動電子裝置之一作業系統層級，識別由運行於該電子裝置上之一應用程式輸出之媒體內容之一原始人類語言，該原始人類語言不同於由該行動電子裝置之一使用者定義之一目標人類語言；在該作業系統層級，將該媒體內容自該媒體內容之該原始人類語言翻譯成依該目標人類語言之經翻譯文字，該媒體內容基於經儲存在該行動電子裝置之一記憶體中之翻譯模型來翻譯；在該作業系統層級，產生一系統使用者介面疊合以用於經由該行動電子裝置之一顯示裝置進行顯示；及在該作業系統層級，在對應於該應用程式之經顯示內容之一部分上方呈現該系統使用者介面疊合，該系統使用者介面疊合包含該經翻譯文字。
如請求項1之方法，進一步包括基於一使用者輸入，在該顯示裝置上，對該系統使用者介面疊合重新設定大小及移動該系統使用者介面疊合之一或多者。
如請求項1或請求項2之方法，進一步包括基於一使用者偏好人類語言之一使用者選擇來識別用於翻譯之該目標人類語言。
如請求項3之方法，其中該使用者選擇在該行動電子裝置之裝置設定中將該使用者偏好人類語言設定為該目標人類語言。
如請求項3之方法，進一步包括：在識別該媒體內容之該原始人類語言之後及在識別該目標人類語言之前，產生一提示以請求該目標人類語言之該使用者選擇；及基於與該提示相關聯之一額外使用者輸入來接收該使用者選擇。
如請求項1或請求項2之方法，其中：該媒體內容包含透過一即時訊息傳遞應用程式進行之一聊天對話之文字訊息；且該媒體內容之該翻譯包含將該聊天對話之該等文字訊息自動翻譯成該目標人類語言。
如請求項1或請求項2之方法，進一步包括，在識別該原始人類語言之前：回應於一第一使用者輸入，自透過一即時訊息傳遞應用程式進行之一聊天對話中之複數個傳入文字訊息來選擇一文字訊息；回應於一第二使用者輸入而複製該選定文字訊息；及回應於一第三使用者輸入，使用該選定文字訊息作為用於翻譯之該媒體內容。
如請求項1或請求項2之方法，基於針對逐字詞翻譯設定之該等裝置設定，該方法進一步包括，在識別該原始人類語言之前：基於一第一使用者輸入，自在該顯示裝置上顯示之作為由該應用程式輸出之該媒體內容之部分的複數個字詞選擇一字詞；複製該選定字詞；及使用該選定字詞作為用於翻譯之該媒體內容。
如請求項1或請求項2之方法，其中該媒體內容之該翻譯包含將透過一即時訊息傳遞應用程式進行之一聊天對話之一或多個傳出文字訊息自動翻譯成該一或多個傳出文字訊息之一接收者之一偏好人類語言。
如請求項1或請求項2之方法，其中：該媒體內容包含由該使用者經由該行動電子裝置之一鍵盤或經由藉由該行動電子裝置，自由該使用者提供之語音命令進行的轉錄而輸入的文字；該目標人類語言對應於由該使用者輸入之該文字之一預期接收者之一偏好人類語言；且包含於該系統使用者介面疊合中之該經翻譯文字係可選擇的，以作為一傳出文字訊息經由該應用程式發送至該預期接收者。
如請求項1或請求項2之方法，其中該呈現包含使用經儲存於該記憶體中之呈現模型以引起該經翻譯文字實質上匹配該應用程式之原生內容的一或多個視覺特性。
如請求項1或請求項2之方法，其中：該媒體內容包含音訊內容；該方法可進一步包括使用一自動話音辨識轉錄模組來將該音訊內容轉錄成依該原始人類語言之視覺文字；且該媒體內容之該翻譯包含將該視覺文字翻譯成該目標人類語言以在該系統使用者介面疊合中顯示。
如請求項12之方法，其中：該音訊內容係經由該應用程式重播或實時串流傳輸之視訊內容的部分；且在重播或實時串流傳輸該視訊內容時，該系統使用者介面疊合經呈現以包含該經翻譯文字作為該視訊內容之字幕。
如請求項1或請求項2之方法，其中該等翻譯模型包含語義自然語言理解。
一種行動電子裝置，其包括：一顯示裝置；一或多個處理器；及記憶體，其儲存：可用於將文字自一原始人類語言翻譯為一目標人類語言之翻譯模型；及指令，其等在藉由該一或多個處理器執行時引起該一或多個處理器實施一翻譯管理器模組，以藉由執行如請求項1至14中任一項之方法來提供由該電子裝置輸出之媒體內容的裝置上即時翻譯。
一種包括指令之電腦可讀媒體，該等指令在藉由一或多個處理器執行時，引起該一或多個處理器實行如請求項1至14中任一項之方法。