TWI543150B - 用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統 - Google Patents
用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統 Download PDFInfo
- Publication number
- TWI543150B TWI543150B TW100112854A TW100112854A TWI543150B TW I543150 B TWI543150 B TW I543150B TW 100112854 A TW100112854 A TW 100112854A TW 100112854 A TW100112854 A TW 100112854A TW I543150 B TWI543150 B TW I543150B
- Authority
- TW
- Taiwan
- Prior art keywords
- text
- block
- stream
- user
- blocks
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
本發明係關於聲音串流擴充筆記摘錄。
聲音串流擴充筆記摘錄係用以從一聲音記錄中獲取資訊,及將此資訊與使用者所產生的內容進行相關聯的程序。在一些情況中,其可助於一使用者在重新檢視所摘錄的筆記時被提供額外的資訊。舉例而言,一使用者可在呈現(例如演講或會議)期間進行筆記記錄,但無法在往後的重新檢視中記憶起與此些筆記相關聯的額外細節。筆記摘錄者在聆聽此呈現時嘗試著包含所有此些細節會導致:該筆記摘錄者在嘗試追蹤時遺失後續的細節。傳統的系統(例如速記、速記法、及快速的摘錄)時常難以學習,及對偶發性的對話係不切實用的。
本發明提供一種聲音串流擴充筆記摘錄。提供此發明內容以用一簡化的形式引入一選擇性概念的介紹,其進一步描述於後文的實施方式中。此發明內容無意於識別所請求發明內容的關鍵或必要特徵。此發明內容無意於經使用以限制所請求發明內容的範圍。
本發明提供一種聲音串流擴充筆記摘錄。與至少一發聲者相關聯的聲音串流可被記錄與轉換為文字塊。可從一使用者接收文字輸入,例如在一電子文件中。文字輸入可與文字塊相比較以識別此些匹配,及該匹配的文字塊可顯示至該使用者以供選擇。
前文的一般性詳述和後續的實施方式二者提供實例和僅為說明性的。從而,前文的一般性詳述和後續的實施方式可視為限制性的。再者,除了在此所描述者,可提供特徵或變化。舉例而言,具體實施例係關於在實施方式中描述的各種特徵組合和子組合。
後續的實施方式意指隨附圖式。若為可能,相同的參照編號可使用於圖式中,及後續的實施方式意指相同的或類似的元件。當描述本發明的具體實施例時,修正、調適、和其它實施係可能的。舉例而言,可對示例說明於圖式中的元件作出代替、增加或修正,及在此所描述的方法可藉由代替、重新排序、或新增步驟至所揭露的方法來進行修正。從而,後續的實施方式並未限制本發明。而是,本發明的適當範圍係由隨附的申請專利範圍來界定。
與本發明的具體實施相一致,可記錄在一筆記摘錄者周圍的聲音串流。可識別數個聲音(數個),例如藉由文字至語音演算法,及分為數個句子及/或片語以提供新近的文字塊之緩衝。當筆記摘錄者作筆記時,其所鍵入的文字可與來自聲音串流的新近的句子和片語塊作匹配。自動完成的建議可提供至筆記摘錄者。此些建議可根據由筆記摘錄者所輸入的少量的文字來選擇和增加至所摘錄的筆記。
當一使用者正在作筆記時,例如在膝上型電腦或平板電腦上,在電腦中的麥克風可記錄在此區域中所有發聲。電腦可根據語音辨識匹配,將傳入語音轉換為文字串流。語音辨識演算法(例如基於隱藏馬可夫模型(HMM)的演算法)在如輸出一序列的符號或量的統計模型之習知技術中被熟悉的。在語音辨識中,HMM可定時地輸出一序列n維的實數向量(其中n係一小整數,例如10),例如每10毫秒(millisecond)。該等向量包含:倒頻譜係數(cepstral coefficient),其可藉由對語音的短時間視窗進行傅立葉轉換、使用一餘弦轉換對該頻譜解關聯性、及而後採取前面(最高有效)的係數來獲得。HMM具有對角線共變異數的高斯混合的統計分佈,其可提供每一觀測向量的一概似。每一單詞、或(對更為一般性的語音辨識系統而言)每一音素可具有不同的輸出分佈。藉由將分別的單詞或音素之訓練的個別HMM連結,產生一序列的單詞或音素的隱藏馬可夫模型。
語音辨識系統可使用數種標準技術之各種組合,以為了改善前文所描述的基本方法的結果。典型的大型字彙系統需要該等音素的上下文相依性(故具有不同的左上下文和右上下文的音素具有:如同HMM狀態的不同實現)。一語音辨識器可使用倒頻譜正規化以對不同的發聲者和記錄狀況進行正規化,及/或其可使用男性-女性(male-female)的聲道長度正規化(vocal tract length normalization,VTLN)和更為一般性的發聲者適應性的最大概似線性回歸(maximum likelihood linear regression,MLLR)。
當識別語音和將其轉換為文字時,每一單詞及/或片語可被指定一加權的機率,例如藉由評估上下文及/或文法規則。當轉換更多的語音時,可根據後續所識別的文詞及/或片語來調整機率。此外,使用者所擁有的筆記可使用以指定及/或調整機率。舉例而言,聲音串流可轉換為包含片語「4乘以8等於32(four times eight is thirty-two)」的文字串流。該轉換可根據在該片語中的其它數字的上下文而對第一個文詞係「4(four)」而非「用以(for)」指定一較高的機率,或對一使用者在靠近的時間點附近輸入文字「4乘以(four times)」指定一較高的機率。
所記錄的聲音串流及/或該轉換的文字串流可在一組態的時間量儲存於緩衝中。舉例而言,緩衝可保持在丟棄聲音串流及/或文字串流之前的前幾分鐘的記錄。此時間可例如根據使用者的喜好及/或裝置的功能來增加或減少。再者,在緩衝中的文字可根據停頓中止、句子斷點、片語斷點、及/或連接詞可區分為數個塊。舉例而言,過渡詞(如「前進(moving on)」、「下一個點(the next point)」、「否則(otherwise)」等等)可包含:在可使用以分隔該文字的片語邊界的清單中之項目。
當該使用者輸入文字時,該等塊可被用來搜尋可顯至該使用者的可能的匹配。舉例而言,該文字緩衝可包含:文句「聲音記錄係容易的,但聲音搜尋係困難的(Audio recording is easy, but audio searching is hard)」。若該使用者而後鍵入字母“a-u-d”,該等片語「聲音記錄係容易的(audio recording is easy)」和「聲音搜尋係困難的(audio searching is hard)」可識別為潛在地匹配的塊。可顯示此些塊以供選擇,例如在彈出式清單中,及該使用者可藉由習知的互動來選擇一者,例如滑鼠點擊所選擇的塊、按下一鍵(例如空白鍵或tab鍵)以選擇一顯示的塊、使用一觸控筆點擊一者等等。該等塊可根據與每一片語及/或文詞相關聯的時間標籤來顯示,例如以時間順序(時間為舊的在前)或相反的時間順序(時間為新的在前)來排列。
亦可藉由關聯性來排列該等塊。舉例而言,該文字串流可包含:該等塊「預先警告即為預先準備(forewarned is forearmed)」和「嘗試高的分數(try for a high score)」。若該使用者鍵入“f-o-r”,關聯性排列可導致:預先警告即為預先準備(forewarned is forearmed)片語可根據所鍵入的字母係較長的文詞的部份、較常地出現在該塊中,及與較為重要的文詞(如其中例如為“for”的介系詞可對其給予較低的重要性)相關聯,而較先地排列在該清單中。
第1圖係用以提供聲紋識別的作業環境100的方塊圖。作業環境100可包含:一使用者裝置105,該使用者裝置包含:耦合到語音至文字(STT)轉換器120的麥克風110。STT轉換器120可耦合至操作以儲存所轉換的文字之記憶體緩衝130。使用者裝置105進一步包含:筆記摘錄應用程式140,例如可通訊地耦接至STT轉換器120及/或緩衝130的文書處理應用程式。筆記摘錄應用程式140可操作以建立、開啟、編輯、及/或儲存例如為檔案的電子文件。
第2圖更為詳細地示例說明筆記摘錄應用程式140。筆記摘錄應用程式140可包含:一使用者界面區域210,該使用者界面區域經操作以接收一使用者文字輸入220。回應於接收使用者文字輸入220,筆記摘錄應用程式140可決定:從所記錄的語音轉換的和儲存於緩衝130的任何文字區段是否與在使用者文字輸入220中的文字相匹配。與本發明的具體實施例相一致,匹配可包含:例如語音(例如“for”匹配“four”)、及/或逐字元的匹配。筆記摘錄應用程式140可顯示例如在工具提示元件230中的匹配文字區段,其包含:複數個匹配的文字區段240(A)-(C)。最相關的匹配(例如接續最新近輸入的文字的文字區段)可包含:匹配的文字區段240(A)-(C)識別250的選擇,例如反白。該選擇識別可由該使用者來移動,例如藉由使用方向鍵,及匹配文字區段240(A)-(C)的所反白者可經選擇以用於置入使用者界面區域210,例如藉由使用者在其鍵盤按下輸入(Enter)及/或tab鍵、或藉由滑鼠及/或觸控筆選擇一選項。
第3圖係描述與本發明的具體實施例相一致的方法300中所涉及的一般性步驟之流程圖,該流程圖用以提供聲紋識別。方法300可使用如參照第4圖更為詳細地於後文描述的計算裝置400來實施。實施方法300的步驟之方式將於後文更為詳細地描述。方法300可開始於啟始方塊305及進行至步驟310,其中計算裝置400可記錄一語音串流至緩衝。舉例而言,使用者裝置105可藉由麥克風110來記錄聲音/語音串流。
從步驟310,方法300可進行至315,其中計算裝置400可轉換所記錄的語音串流至文字串流。舉例而言,STT轉換器120可執行隱藏馬可夫模型演算法以轉換所記錄的聲音為字元或文句。與本發明的具體實施例相一致,STT轉換器120可根據編程及/或文法規則來識別和置入標點符號。舉例而言,該文字串流可具有在停頓中止期間所置入的句點、及/或在連接詞之前所置入的逗點。
從步驟315,方法300可進行至步驟320,其中計算裝置400可增加中介資料至所轉換的文字串流。舉例而言,使用者裝置105可增加時間標籤至每一單詞,及/或在文字串流中的句子。中介資料亦可包含:有助於將所轉換的文字與來自該使用者的文字輸入相匹配的資料,例如常見的縮寫、拼錯字、及/或語音替代者。
從步驟320,方法300可進行至步驟325,其中計算裝置400可識別在所轉換的文字串流內的至少一文字塊。STT轉換器120及/或筆記摘錄應用程式140可識別在文詞之間的邏輯斷點,例如藉由識別在文字串流中的列舉、介系詞、及/或連接詞,及/或可識別片語及/或句子邊界的停頓中止。舉例而言,該文字串流可包含:數個列舉,例如「第一點(the first point)」、「第二項目(the second item)」、「下一個主題(the next topic)」、「最後一件事(the last thing)」等等。此些列舉可使用以識別片語及/或句子邊界。與本發明的具體實施例相一致,此類引入的片語及/或連接詞可分類為:相較於其所包圍的充滿內容的文字塊,與筆記摘錄較無關聯性。該文字串流的此些較無相關的部份可分離為其具有的數個塊,以從呈現至該使用者的建議中消除不必要的文詞,如同後文所描述者。
從步驟325,方法300可進行至步驟330,其中計算裝置400可接收一文字輸入。舉例而言,使用者裝置105的使用者可輸入至少一字元及/或文詞至筆記摘錄應用程式140。
從步驟330,方法300可行進至步驟335,其中計算裝置400可決定:該文字輸入是否與所轉換的文字串流之任何者相匹配。舉例而言,該文字串流可包含:「我們應該於下星期二安排一會議(We should set up a meeting for next Tuesday)。於2點鐘進行如何?(How does two o'clock work?)。」。該串流可分為二個(及/或更多個)塊,例如「於下星期二安排一會議(set up a meeting for next Tuesday)」和「於2點鐘進行如何(How does two o'clock work)」。若該使用者鍵入字母“m-e-e-t”,計算裝置400可識別「於下星期二安排一會議(set up a meeting for next Tuesday)」為一匹配的文字塊。若並無文字塊與所轉換的文字串流的至少一部份相匹配,方法300可返回至步驟330,及繼續接收文字輸入。
否則,方法300可進行至步驟340,其中計算裝置400顯示該匹配的文字塊以作為一建議。舉例而言,筆記摘錄應用程式140可在工具提示元件230中顯示:該匹配的文字塊。該顯示可接近顯示在筆記摘錄應用程式140的電子文件內的目前的文字輸入點。
從步驟340,方法300可進行至步驟345,其中計算裝置400可決定:該文字輸入是否至少部份地與至少一第二識別的文字塊匹配。舉例而言,筆記摘錄應用程式140可針對與該文字輸入匹配的任何文字塊來掃描緩衝130。
若額外的文字塊為匹配,方法300可進行至方法350,其中計算裝置400可顯示該至少一第二文字塊作為一第二建議的文字塊予該系統的該使用者。舉例而言,筆記摘錄應用程式140可以與關聯於與該文字塊的可能的關聯性的加權機率相關聯的順序,顯示複數個文字塊240(A)-(C)至該匹配的文字輸入。該匹配文字塊可被指定一加權的關聯性機率,例如藉由該文字輸入的時間點附近、藉由內容、及/或藉由上下文。加權關聯性的一些實例可包含:在10秒前所說出的匹配文詞相對於在30秒前所說出的相同文詞經加權為具有較高的關聯性,及/或在介系詞片語中的匹配的文詞相較於此片語外的相同的文詞經加權為較低的關聯性。
從步驟350,或若在步驟345中並無識別額外的匹配的文字塊,方法300可進行至步驟355,其中計算裝置400可接收該顯示的文字塊的一者之選擇。舉例而言,文字塊240(A)-(C)的一者可由一使用者藉由滑鼠及/或觸控筆來點擊。
從步驟355中,方法300可進行至步驟360,其中計算裝置400可置入所選擇的文字塊至在筆記摘錄應用程式140內的該電子文件。舉例而言,若該使用者已輸入字母“m-e-e-t”和選擇的該文字塊「在星期二與Sandy開會(Meeting with Sandy on Tuesday)」,可置入文句「在星期二與Sandy開會(Meeting with Sandy on Tuesday)」來取代所輸入的字母“m-e-e-t”。與本發明的具體實施例相一致,指定予每一文字塊的中介資料可使用以提供額外的資訊,例如藉由將“Sandy”與在使用者的通訊錄中的聯絡人相關聯,及/或根據該使用者的行事曆新增一日期給下個星期二。
從步驟360,方法300可進行至步驟365,其中計算裝置400可顯示循序地為後者的文字塊至該選擇的文字塊中。舉例而言,在置入該選擇的文字塊後,筆記摘錄應用程式140可使用與該置入的文字塊相關聯的時間標籤中介資料,以用循序的順序來識別該下一個文字塊,及可顯示該文字塊作為一建議予該使用者。舉例而言,在置入「在星期二與Sandy開會(Meeting with Sandy on Tuesday)」之後,筆記摘錄應用程式140可顯示一接續的片語「關於行銷努力(“marketing effort”)」作為一選擇的建議以置入該電子文件中。此建議可由該使用者來選擇以用於置入,如同關於步驟355所描述者。方法300而後可在步驟370中結束。
與本發明相一致的具體實施例可包含:用以提供聲音串流擴充筆記摘錄的系統。該系統可包含:一記憶體儲存和耦合至該記憶體儲存的處理單元。該處理單元可操作以:記錄與一發聲者相關聯的一聲音串流、轉換該聲音串流為文字塊、從一使用者接收一文字輸入、決定:該文字輸入是否與該等文字塊的一者相關聯。若為如此,顯示該至少一文字塊至該使用者,以作為在一選擇界面元件中的一建議。轉換該聲音串流為文字塊之步驟包含以下步驟:經操作以在該聲音串流上執行語音至文字轉換,及識別至少一文字塊邊界。該文字塊邊界可包含(例如):一片語邊界、一句子邊界、及一時間邊界,及每一塊可與經操作以維持該等文字塊的一序列順序的時間標籤相關聯。該處理單元可進一步操作以:從該使用者接收該顯示的文字塊的選擇,及置入該顯示的至少一文字塊至一電子文件。該處理單元亦可操作以:顯示額外的文字塊,例如接續於使用者選擇的文字塊之此些文字塊。與本發明的具體實施例相一致,該處理單元可操作以:識別與該文字輸入匹配的複數個文字塊,及顯示此些方塊的至少一些者。可例如根據對該使用者的文字輸入的關聯性,或根據與該轉換的文字相關聯的時間標籤按照時間順序,排序該顯示的文字塊。
與本發明相一致的另一具體實施例包含:用以提供聲音串流擴充筆記摘錄的系統。該系統可包含:一記憶體儲存和耦合至該記憶體儲存的一處理單元。該處理單元可操作以記錄一聲音串流至一緩衝、轉換該聲音串流為一文字串流、識別與該文字串流相關聯的至少一文字塊、從一使用者接收對一電子文件的文字輸入,及決定:該文字輸入是否至少部份地與該至少一文字塊相匹配。若該文字輸入與該文字塊匹配,該處理單元可操作以:顯示該至少一文字塊至該使用者,作為一擇擇的元件,、從該使用者接收該顯示的至少一文字塊的選擇、及置入該至少一文字塊至該電子文件。該處理單元可進一步操作以:例如藉由在所記錄聲音串流中的停頓中止、一句子邊界、在該文字串流內的一連接詞、及/或一片語邊界,識別與該文字串流相關聯的複數個文字塊。該處理單元可進一步操作以:顯示至少部份地與該文字輸入匹配的該等複數個文字塊之每一者至該使用者,作為選擇元件的一清單、從該使用者接收一第二文字輸入、及從選擇元件的該清單中,移除並不至少部份地與該第二文字輸入匹配的該顯示的複數個文字塊的任何者。該處理單元可操作以:儲存該記錄的聲音串流的可組態的時間區段。舉例而言,可儲存前5、10、或15分鐘的轉換的記錄。該處理單元亦可操作以決定:一特定的聲音串流何時超過,例如其係藉由識別一延長的停頓中止,或偵測到:該使用者已停止相關的記錄裝置,和用該電子文件儲存相關的轉換的文字塊。
與本發明的相一致的又另一具體實施例可包含:用以提供聲音串流擴充筆記摘錄的系統。該系統包含:一記憶體儲存及耦合至該記憶體儲存的一處理單元。該處理單元可操作以:記錄一聲音串流至緩衝中,其中該緩衝包含:足夠以儲存一可組態的時間區段的記錄的語音串流的記憶體儲存內的一記憶體量、轉換儲存在該緩衝中的記錄的語音串流至包含複數個文詞的相對應的文字串流、將含有一時間標籤的中介資料與該等複數個文詞的每一者相關聯、識別在相對應的文字串流內的至少一文字塊、從該系統的一使用者接收一文字輸入至一電子文件、決定:該文字輸入是否至少部份地與該至少一文字塊相匹配,其中該至少一文字塊包含:在相對應的文字串流內的最新近的識別的文字塊,以回應於決定該文字輸入至少部份地與該至少一文字塊相匹配、及顯示該至少一文字塊作為一建議的文字塊予該系統的使用者。該處理單元進一步操作以決定:該文字輸入是否至少部份地與至少一第二識別的文字塊匹配,顯示該至少一第二文字塊作為一第二建議的文字塊予該系統的使用者、從該系統的該使用者接收該至少一文字塊和至少一第二文字塊的至少一者的選擇、置入該至少一文字塊和該至少一第二文字塊的該選擇的至少一者至該電子文件、及顯示至少一第三文字塊作為一第三建議的文字塊,其中該至少一第三文字塊包含:來自該至少一文字塊和該至少一第二文字塊的該選擇的至少一者的循序地為後者的文字塊。
第4圖係包含計算裝置400的系統之方塊圖。與本發明的具體實施例相一致,前述的記憶體儲存和處理單元可實施在一計算裝置中,例如第4圖中的計算裝置400。硬體、軟體、或韌體的任何適當組合可使用以實施該記憶體儲存和處理單元。舉例而言,記憶體儲存和處理單元可與計算裝置400、或其它計算裝置418的任何者結合計算裝置400來實施。前述的系統、裝置、處理器為實例,及其它系統、裝置、處理器可包含:前述的記憶體儲存和處理單元,其與本發明的具體實施例相一致。再者,計算裝置400可包含:如同前文所描述者的系統的作業環境。該系統可操作於其它環境,及不限於計算裝置400。
參照第4圖,與本發明的具體實施例相一致的系統可包含:一計算裝置,例如計算裝置400。在基本的組態中,計算裝置400可包含:至少一處理單元402和一系統記憶體404。取決於計算裝置的組態和類型,系統記憶體404可包含(但不限於):揮發性(例如隨機存取記憶體(RAM))、非揮發性記憶體(例如唯讀記憶體(ROM))、快閃記憶體、或任何組合。系統記憶體404可包含:作業環境405、緩衝130、及一或更多個可程式化模組406,該等可程式化模組包含:筆記摘錄應用程式140及/或STT轉換器120。作業環境405可例如適合於控制計算裝置400的操作。在一具體實施例中,程式化模組406可包含:聲紋產生器407,該聲紋產生器可操作以分析所記錄的聲音及產生一聲紋簽章。再者,本發明的具體實施例可結合繪圖資料庫、其它作業系統、及任何其它應用程式來實施,但不限於任何特定的應用程式或系統。此基本組態藉由在虛線408內的此些元件示例說明於第4圖中。
計算裝置400可具有額外的特徵或功能性。舉例而言,計算裝置400亦可包含:額外的資料儲存裝置(可移除及/或不可移除),例如磁碟、光碟、或磁帶。此額外的儲存可藉由可移除儲存409和不可移除儲存410示例說明於第4圖中。計算裝置400亦可包含:通訊連接416,該通訊連接可允許裝置400以與其它計算裝置418相通訊,例如透過在分散式計算環境中的網路(例如企業內部網路或網際網路)。通訊連接416係通訊媒體的一實例。
在此所使用的詞彙「電腦可讀取媒體」可包含:電腦儲存媒體。電腦儲存媒體可包含:揮發性和非揮發性、可移除和不可移除媒體,其可以任何方法或技術來儲存資訊,例如電腦可讀取指令、資料結構、程式模組、或其它資料。系統記憶體404、可移除儲存409、及不可移儲存410係所有的電腦儲存媒體實例(例如記憶體儲存)。電腦儲存媒體可包含(但不限於):RAM、ROM、電子式的可抹除唯讀記憶體(EEPROM)、快閃記憶體、或其它記憶體技術、CD-ROM、數位多媒體影音光碟(DVD)、或其它光學儲存、磁匣、磁帶、磁碟儲存、或其它磁性儲存裝置、或任何可使用以儲存資訊和可由計算裝置400存取的其它媒體。任何此類的電腦儲存媒體可為裝置400的部份。計算裝置400亦可具有:輸入裝置(多個)412,例如鍵盤、滑鼠、筆、聲音輸入裝置、觸控輸入裝置等等。亦可包含:輸出裝置(多個)414(例如顯示、揚聲器、印表機等等)。前述的裝置為實例,及其它者可被使用。
在此使用的詞彙「電腦可讀取媒體」亦可包含:通訊媒體。通訊媒體可藉由電腦可讀取指令、資料結構、程式模組、或在調變訊號中的資料來體現,例如載波或其它傳輸機制,及包含:任何資訊傳送媒體。詞彙「調變的資料訊號」可描述:具有一或更多個特性集或以將資訊編碼在訊號中的方式來改變的訊號。藉由實例方式,而非限制,通訊媒體可包含:有線媒體,例如有線網路或直接線路連接,及無線媒體,例如聲音、射頻(RF)、紅外線、及其它無線媒體。
如前文所描述者,複數個程式模組和資料檔案可儲存於系統記憶體404中,其包含:作業環境405。當在處理單元402上執行時,程式模組406(例如筆記摘錄應用程式140及/或STT轉換器120)可執行程序,該程序包含(例如):一或更多個方法300的步驟,如前文所描述者。前述的程序係一實例,及處理單元402可執行其它程序。可根據本發明的具體實施例使用的其它程式模組可包含:電子郵件和通訊錄應用程式、文書處理應用程式、試算表應用程式、資料庫應用程式、投影片呈現應用程式、繪圖或電腦輔助應用程式等等。
一般而言,與本發明的具體實施例相一致,程式模組可包含:常式、程式、元件、資料結構、及可執行特定任務或可實施特定抽象資料型別的其它類型的結構。再者,本發明的具體實施例可與其它電腦系統組態來實施,其包含:手持裝置、多處理器系統、微處理器式或可程式化的消費性電子、迷你電腦、大型電腦、及其類似者。本發明的具體實施例亦可在分散式的計算環境中實施,其中任務係藉由透過通訊網路鏈結的遠端處理裝置來執行。在一分散式的計算環境中,程式模組可位於本地端和遠端記憶體儲存裝置二者。
再者,本發明的具體實施例可在電子電路中實施,該電子電路包含:離散的電子元件、封裝或整合的包含有邏輯閘的電子晶片、使用微處理器的電路,或在包含電子元件或微處理器的單一晶片上執行。本發明的具體實施例亦可使用能執行邏輯操作的其它技術來實施,例如AND、OR、和NOT,其包含(但不限於):機械、光學、流體、及量子技術。此外,本發明的具體實施例可在一般性目的電腦或任何其它電路或系統來實施。
本發明的具體實施例可例如實施為電腦程序(方法)、計算系統、或實施為一製造物項,例如電腦程式產品或電腦可讀取媒體。電腦程式產品可為由電腦系統讀取和將電腦程式指令編碼以執行電腦程序的電腦儲存媒體。電腦程式產品亦可為在一載波上可由計算系統讀取和將電腦程式指令編碼以用於執行電腦程序的的傳遞訊號。從而,本發明可體現於硬體及/或軟體(其包含:韌體、常駐軟體、徵代碼等等)中。換言之,本發明的具體實施例可採用在電腦可使用或電腦可讀取儲存媒體上的電腦程式產品的形式,該媒體具有體現於該媒體中的電腦可使用或電腦可讀取程式碼以由指令執行系統使用和與指令執行系統結合。電腦可使用或電腦可讀取媒體可為:包含、儲存、通訊、傳遞、或傳輸由指令執行系統、裝置、或設備使用、或與指令執行系統、裝置、或設備結合的程式的任何媒體。
電腦可使用或電腦可讀取媒體可例如為(但不限於):電子、磁性、光學、電磁、紅外線、或半導體系統、裝置、設備、或傳播媒體。更為特定的電腦可讀取媒體實例(非窮盡性列表),電腦可讀取媒體可包含下列各者:具有一或更多導線的電氣連接、可攜式電腦磁匣、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除的可程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、及可攜式光碟唯讀記憶體(CD-ROM)。注意到:電腦可使用或電腦可讀取媒體可為程式列印於其上的紙張或另一適當的媒體,如同程式可藉由例如紙張或其它媒體的光學掃描來電子式地獲取,然後加以編譯、直譯、或另外地以適當的方式來進行,若為必要,則然後儲存於電腦記憶體中。
本發明的具體實施例例如參照方塊圖及/或根據本發明的具體實施例的方法、系統、及電腦程式產品的操作說明來描述。在方塊中所註記的功能/步驟可不同於顯示於任何流程圖中的順序來執行。舉例而言,連續顯示的二個方塊可實質上同時地執行,或方塊有時以相反順序來執行,其取決於相關的功能性/步驟。
當描述了本發明的具體實施例,其它的具體實施例亦存在。再者,雖然本發明的具體實施例經描述為與儲存於記憶體和其它儲存媒體中的資料相關聯,資料亦可儲存於其它類型的電腦可讀取媒體中、或從其它類型的電腦可讀取媒體讀取,例如次要的儲存裝置,類似硬碟、軟碟、或CD-ROM,來自網際網路的載波,或其它形式的RAM或ROM。再者,所揭露的方法之步驟可以任合方式來修改,其包含:藉由重新排列步驟及/或置入或刪除步驟,而不偏離本發明。
可授與包含在此的程式碼中的著作權之所有權利,及其為申請人的財產。申請人保持和保留在此包含的程式碼之所有權利,及准許僅與所准專利的重製品結合以重製此材料,而並無其它目的。
當說明書包含實例時,本發明的範圍係由隨附的申請專利範圍來指示。再者,當以特定於結構特徵及/或方法步驟的語言來描述說明書時,申請專利範圍並不限於前文所描述的特徵或步驟。而是,前文所描述的特定的特徵和步驟經揭露為本發明的具體實施例的實例。
100...作業環境
105...使用者裝置
110...麥克風
120...語音至文字轉換器
130...記憶體緩衝
140...筆記摘錄應用程式
210...使用者界面區域
220...使用者文字輸入
230...工具提示元件
240(A)-(C)...匹配的文字區段
250...識別
400...計算裝置
402...處理單元
404...系統記憶體
405...作業環境
406...可程式化模組
408...虛線
409...可移除儲存
410...不可移除儲存
412...輸入裝置
414...輸出裝置
416...通訊連接
418...計算裝置
隨附圖式示例說明本發明的各種具體實施例,其在此引入及組成該揭露的一部份。在圖式中:
第1圖係作業環境的方塊圖。
第2圖係筆記摘錄應用程式的方塊圖。
第3圖係用以提供聲紋識別的方法之流程圖。
第4圖係包含一計算裝置的系統之方塊圖。
100...作業環境
105...使用者裝置
110...麥克風
120...語音至文字轉換器
130...記憶體緩衝
140...筆記摘錄應用程式
Claims (22)
- 一種用以提供聲音串流擴充筆記摘錄的方法,該方法包含以下步驟:記錄與至少一發聲者相關聯的一聲音串流;轉換該聲音串流為文字,其中該文字包含至少一文字塊,該至少一文字塊包含一句子或片語,該至少一文字塊包含由識別該文字中之片語或句子邊界之邏輯斷點所界定之充滿內容的文字;從一使用者接收至少一文字輸入;決定自該使用者接收的該至少一文字輸入係與該至少一文字塊之至少一部分匹配;及回應於決定自該使用者接收的該至少一文字輸入係與該至少一文字塊之至少一部分匹配,顯示該至少一文字塊至該使用者以作為一建議。
- 如申請專利範圍第1項所述之方法,其中轉換該聲音串流為文字之步驟包含以下步驟:在該聲音串流上執行一語音至文字轉換;及根據一片語邊界、一句子邊界及一時間邊界之至少一者,識別至少一文字塊邊界。
- 如申請專利範圍第1項所述之方法,其中該至少一文字塊係與一時間標籤相關聯。
- 如申請專利範圍第3項所述之方法,其中該接收的至少一文字輸入係與一電子文件相關聯。
- 如申請專利範圍第4項所述之方法,進一步包含以下步驟:從該使用者接收該經顯示的至少一文字塊的一選擇;及置入該經顯示的至少一文字塊至該電子文件。
- 如申請專利範圍第5項所述之方法,進一步包含以下步驟:顯示至少一第二經轉換的文字塊至該使用者。
- 如申請專利範圍第6項所述之方法,其中該至少一第二經轉換的文字塊包含:跟隨該至少一文字塊的一下一個接續的文字塊。
- 如申請專利範圍第1項所述之方法,進一步包含以下步驟:識別至少部份地與該至少一文字輸入匹配的複數個經轉換的文字塊;及顯示該複數個經轉換的文字塊至該使用者,以作為一可選擇的清單。
- 如申請專利範圍第8項所述之方法,其中該複數個經轉換的文字塊的每一者係與一時間標籤相關聯。
- 如申請專利範圍第9項所述之方法,其中該複數個經轉換的文字塊的每一者在該可選擇的清單中係按時間順序來顯示。
- 如申請專利範圍第9項所述之方法,其中該複數個經轉換的文字塊的每一者在該可選擇的清單中係按相反的時間順序來顯示。
- 如申請專利範圍第8項所述之方法,其中該複數個經轉換的文字塊的每一者在該可選擇的清單中係按對該至少一文字輸入的關聯性的順序來顯示。
- 如申請專利範圍第1項所述之方法,其中顯示該至少一文字塊至該使用者以作為一建議之步驟包含以下步驟:於轉換該聲音串流為文字之步驟中識別該至少一文字塊。
- 如申請專利範圍第1項所述之方法,其中在該文字中之該片語或句子邊界包含該文字中之邏輯斷點。
- 一種儲存一組指令的電腦可讀取儲存裝置,當執行該 組指令時,該組指令執行用以提供聲音串流擴充筆記摘錄的一方法,由該組指令執行的該方法包含以下步驟:記錄一聲音串流至一緩衝;轉換該聲音串流為一文字串流,其中該文字串流包含至少一文字塊,該至少一文字塊包含一句子或片語,該至少一文字塊包含由識別該文字串流中之片語或句子邊界之邏輯斷點所界定之充滿內容的文字;從一使用者接收一文字輸入至一電子文件;決定該文字輸入是否至少部份地與該至少一文字塊匹配;回應於決定該文字輸入至少部份地與該至少一文字塊匹配,顯示該至少一文字塊至該使用者以作為一可選擇元件;從該使用者接收該經顯示的至少一文字塊的一選擇;及置入該至少一文字塊至該電子文件。
- 如申請專利範圍第15項所述之電腦可讀取儲存裝置,進一步包含:識別與該文字串流相關聯的複數個文字塊,其中該複數個文字塊的每一者係根據該至少一邊界來識別,及其中該至少一邊界包含:在該經記錄的聲音串流中的一停頓中止、一句子邊界、在該文字串流內的一連接詞及一片語邊界的至少一者。
- 如申請專利範圍第16項所述之電腦可讀取儲存裝置,進一步包含:顯示該複數個文字塊的每一者至該使用者以作為可選擇元件的一清單,該複數個文字塊至少部份地與該文字輸入匹配。
- 如申請專利範圍第17項所述之電腦可讀取儲存裝置,進一步包含:從該使用者接收一第二文字輸入;及從可選擇元件的該清單,移除並不至少部份地與該第二文字輸入匹配的該經顯示的複數個文字塊之任何文字塊。
- 如申請專利範圍第17項所述之電腦可讀取儲存裝置,其中可選擇元件的該清單係根據一時間標籤和對該文字輸入的一關聯性的至少一者來排序。
- 如申請專利範圍第15項所述之電腦可讀取儲存裝置,進一步包含:回應於從該使用者接收該經顯示的至少一文字塊的該選擇,顯示至少一接續的文字塊至該使用者以作為一可選擇的元件。
- 如申請專利範圍第15項所述之電腦可讀取儲存裝 置,其中該緩衝經操作以儲存該經記錄的聲音串流之一可組態的時間區段。
- 一種用以提供聲音串流擴充筆記摘錄的系統,該系統包含:一記憶體儲存;及一處理單元,該處理單元耦合至該記憶體儲存,其中該處理單元經操作以執行以下步驟:記錄一語音串流至一緩衝,其中該緩衝包含足夠儲存一可組態的時間區段的該經記錄的語音串流之該記憶體儲存內的一記憶體量,轉換儲存在該緩衝中的該經記錄的語音串流為包含複數個文詞之一相對應的文字串流,將包含一時間標籤的中介資料與該複數個文詞的每一者相關聯,識別在該相對應的文字串流內的至少一文字塊,其中該至少一文字塊包含一停頓中止、一句子邊界、一連接詞及一片語邊界之至少一者,從該系統的一使用者接收一文字輸入至一電子文件,決定該文字輸入是否至少部份地與該至少一文字塊相匹配,其中該至少一文字塊包含在該相對應的文字串流內的一最新近之經識別的文字塊,回應於決定該文字輸入至少部份地與該至少一文字 塊相匹配,顯示該至少一文字塊以作為一建議的文字塊予該系統的該使用者,決定該文字輸入是否至少部份地與至少一第二經識別的文字塊匹配,回應於決定該文字輸入至少部份地與至少一第二經識別的文字塊匹配,顯示該至少一第二文字塊作為一第二經建議的文字塊予該系統的該使用者,從該系統的該使用者接收該至少一文字塊和該至少一第二文字塊的至少一者的一選擇,置入該經選擇的該至少一文字塊和該至少一第二文字塊的至少一者至該電子文件,及顯示至少一第三文字塊以作為一第三經建議的文字塊,其中該至少一第三文字塊包含:來自該經選擇的該至少一文字塊和該至少一第二文字塊的至少一者之循序在後的文字塊。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/785,353 US9236047B2 (en) | 2010-05-21 | 2010-05-21 | Voice stream augmented note taking |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201203222A TW201203222A (en) | 2012-01-16 |
TWI543150B true TWI543150B (zh) | 2016-07-21 |
Family
ID=44973213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW100112854A TWI543150B (zh) | 2010-05-21 | 2011-04-13 | 用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9236047B2 (zh) |
EP (1) | EP2572355B1 (zh) |
CN (1) | CN102906735B (zh) |
RU (1) | RU2571608C2 (zh) |
TW (1) | TWI543150B (zh) |
WO (1) | WO2011146227A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9048314B2 (en) | 2005-02-23 | 2015-06-02 | Intel Corporation | Field effect transistor with narrow bandgap source and drain regions and method of fabrication |
Families Citing this family (153)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10522133B2 (en) * | 2011-05-23 | 2019-12-31 | Nuance Communications, Inc. | Methods and apparatus for correcting recognition errors |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8645825B1 (en) | 2011-08-31 | 2014-02-04 | Google Inc. | Providing autocomplete suggestions |
US9223769B2 (en) | 2011-09-21 | 2015-12-29 | Roman Tsibulevskiy | Data processing systems, devices, and methods for content analysis |
KR101919008B1 (ko) * | 2012-02-24 | 2018-11-19 | 삼성전자주식회사 | 정보 제공 방법 및 이를 위한 이동 단말기 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US8798996B2 (en) * | 2012-03-05 | 2014-08-05 | Coupons.Com Incorporated | Splitting term lists recognized from speech |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR101939253B1 (ko) * | 2012-05-21 | 2019-01-16 | 엘지전자 주식회사 | 음성 녹음 중에 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기 |
KR101897774B1 (ko) * | 2012-05-21 | 2018-09-12 | 엘지전자 주식회사 | 녹음된 음성의 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기 |
US10431235B2 (en) * | 2012-05-31 | 2019-10-01 | Elwha Llc | Methods and systems for speech adaptation data |
US9495966B2 (en) | 2012-05-31 | 2016-11-15 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US20130325453A1 (en) * | 2012-05-31 | 2013-12-05 | Elwha LLC, a limited liability company of the State of Delaware | Methods and systems for speech adaptation data |
US8843371B2 (en) | 2012-05-31 | 2014-09-23 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US10395672B2 (en) * | 2012-05-31 | 2019-08-27 | Elwha Llc | Methods and systems for managing adaptation data |
US20130325449A1 (en) | 2012-05-31 | 2013-12-05 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
US20130325451A1 (en) * | 2012-05-31 | 2013-12-05 | Elwha LLC, a limited liability company of the State of Delaware | Methods and systems for speech adaptation data |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN104143331B (zh) | 2013-05-24 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
CN104142915B (zh) * | 2013-05-24 | 2016-02-24 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9910840B2 (en) | 2015-04-03 | 2018-03-06 | Microsoft Technology Licensing, Llc | Annotating notes from passive recording with categories |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) * | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) * | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10121474B2 (en) * | 2016-02-17 | 2018-11-06 | Microsoft Technology Licensing, Llc | Contextual note taking |
US9813783B2 (en) * | 2016-04-01 | 2017-11-07 | Intel Corporation | Multi-camera dataset assembly and management with high precision timestamp requirements |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US20180101599A1 (en) * | 2016-10-08 | 2018-04-12 | Microsoft Technology Licensing, Llc | Interactive context-based text completions |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
RU2648572C1 (ru) * | 2017-01-12 | 2018-03-26 | Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" | Алгоритм поиска в компьютерных системах и базах данных |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN109285548A (zh) | 2017-07-19 | 2019-01-29 | 阿里巴巴集团控股有限公司 | 信息处理方法、系统、电子设备、和计算机存储介质 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10719222B2 (en) * | 2017-10-23 | 2020-07-21 | Google Llc | Method and system for generating transcripts of patient-healthcare provider conversations |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2021006920A1 (en) * | 2019-07-09 | 2021-01-14 | Google Llc | On-device speech synthesis of textual segments for training of on-device speech recognition model |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11404049B2 (en) | 2019-12-09 | 2022-08-02 | Microsoft Technology Licensing, Llc | Interactive augmentation and integration of real-time speech-to-text |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN114449333B (zh) * | 2020-10-30 | 2023-09-01 | 华为终端有限公司 | 视频笔记生成方法及电子设备 |
EP4221169A1 (en) * | 2022-01-31 | 2023-08-02 | Koa Health B.V. Sucursal en España | System and method for monitoring communication quality |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6377965B1 (en) * | 1997-11-07 | 2002-04-23 | Microsoft Corporation | Automatic word completion system for partially entered data |
US6252947B1 (en) * | 1999-06-08 | 2001-06-26 | David A. Diamond | System and method for data recording and playback |
US7149970B1 (en) * | 2000-06-23 | 2006-12-12 | Microsoft Corporation | Method and system for filtering and selecting from a candidate list generated by a stochastic input method |
KR100381013B1 (ko) | 2000-12-18 | 2003-04-26 | 한국전자통신연구원 | 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체 |
US7117442B1 (en) | 2001-02-01 | 2006-10-03 | International Business Machines Corporation | Efficient presentation of database query results through audio user interfaces |
US20020107896A1 (en) * | 2001-02-02 | 2002-08-08 | Abraham Ronai | Patent application drafting assistance tool |
US7089188B2 (en) | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
US7415667B2 (en) * | 2003-01-31 | 2008-08-19 | Ricoh Company, Ltd. | Generating augmented notes and synchronizing notes and document portions based on timing information |
US9710819B2 (en) * | 2003-05-05 | 2017-07-18 | Interactions Llc | Real-time transcription system utilizing divided audio chunks |
US7542971B2 (en) * | 2004-02-02 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for collaborative note-taking |
SE0402650D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
JP4218758B2 (ja) | 2004-12-21 | 2009-02-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕生成装置、字幕生成方法、及びプログラム |
US20070116199A1 (en) * | 2005-11-17 | 2007-05-24 | Juha Arrasvuori | Method, mobile device, system and software for establishing an audio note journal |
JP4158937B2 (ja) | 2006-03-24 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕修正装置 |
US7756708B2 (en) | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
CN101188110B (zh) | 2006-11-17 | 2011-01-26 | 陈健全 | 提高文本和语音匹配效率的方法 |
CN101013421B (zh) | 2007-02-02 | 2012-06-27 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
US8549441B2 (en) | 2007-06-15 | 2013-10-01 | Microsoft Corporation | Presenting and navigating content having varying properties |
US20120239834A1 (en) * | 2007-08-31 | 2012-09-20 | Google Inc. | Automatic correction of user input using transliteration |
JP5243886B2 (ja) | 2008-08-11 | 2013-07-24 | 旭化成株式会社 | 字幕出力装置、字幕出力方法及びプログラム |
US8768705B2 (en) * | 2009-10-27 | 2014-07-01 | Cisco Technology, Inc. | Automated and enhanced note taking for online collaborative computing sessions |
-
2010
- 2010-05-21 US US12/785,353 patent/US9236047B2/en active Active
-
2011
- 2011-04-13 TW TW100112854A patent/TWI543150B/zh not_active IP Right Cessation
- 2011-04-29 WO PCT/US2011/034665 patent/WO2011146227A2/en active Application Filing
- 2011-04-29 EP EP11783936.5A patent/EP2572355B1/en active Active
- 2011-04-29 CN CN201180025007.3A patent/CN102906735B/zh active Active
- 2011-04-29 RU RU2012149444/08A patent/RU2571608C2/ru active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9048314B2 (en) | 2005-02-23 | 2015-06-02 | Intel Corporation | Field effect transistor with narrow bandgap source and drain regions and method of fabrication |
US9368583B2 (en) | 2005-02-23 | 2016-06-14 | Intel Corporation | Field effect transistor with narrow bandgap source and drain regions and method of fabrication |
Also Published As
Publication number | Publication date |
---|---|
CN102906735B (zh) | 2016-08-10 |
WO2011146227A3 (en) | 2012-04-05 |
WO2011146227A2 (en) | 2011-11-24 |
EP2572355B1 (en) | 2018-06-27 |
EP2572355A2 (en) | 2013-03-27 |
US20110288863A1 (en) | 2011-11-24 |
CN102906735A (zh) | 2013-01-30 |
TW201203222A (en) | 2012-01-16 |
EP2572355A4 (en) | 2013-11-06 |
RU2571608C2 (ru) | 2015-12-20 |
RU2012149444A (ru) | 2014-05-27 |
US9236047B2 (en) | 2016-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI543150B (zh) | 用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統 | |
US7668718B2 (en) | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile | |
US9418152B2 (en) | System and method for flexible speech to text search mechanism | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US20180286385A1 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
US9202466B2 (en) | Spoken dialog system using prominence | |
US11093110B1 (en) | Messaging feedback mechanism | |
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
AU2012388796B2 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
Moyal et al. | Phonetic search methods for large speech databases | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
Thennattil et al. | Phonetic engine for continuous speech in Malayalam | |
Long et al. | Filled pause refinement based on the pronunciation probability for lecture speech | |
US11468897B2 (en) | Systems and methods related to automated transcription of voice communications | |
Koržinek et al. | Automatic transcription of Polish radio and television broadcast audio | |
US11900072B1 (en) | Quick lookup for speech translation | |
Khalaf | Broadcast News Segmentation Using Automatic Speech Recognition System Combination with Rescoring and Noun Unification | |
Żelasko et al. | Towards Better Understanding of Spontaneous Conversations: Overcoming Automatic Speech Recognition Errors With Intent Recognition | |
Al-Anzi et al. | An Empirical Study of Arabic Continuous Speech Recognition Perfomance | |
Jia et al. | Intention understanding based on multi-source information integration for Chinese Mandarin spoken commands | |
JP2007248847A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |