TWI543150B

TWI543150B - 用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統

Info

Publication number: TWI543150B
Application number: TW100112854A
Authority: TW
Inventors: 拉思慕森大衛約翰
Original assignee: 微軟技術授權有限責任公司
Priority date: 2010-05-21
Filing date: 2011-04-13
Publication date: 2016-07-21
Also published as: CN102906735B; WO2011146227A3; WO2011146227A2; EP2572355B1; EP2572355A2; US20110288863A1; CN102906735A; TW201203222A; EP2572355A4; RU2571608C2; RU2012149444A; US9236047B2

Description

用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統

本發明係關於聲音串流擴充筆記摘錄。

聲音串流擴充筆記摘錄係用以從一聲音記錄中獲取資訊，及將此資訊與使用者所產生的內容進行相關聯的程序。在一些情況中，其可助於一使用者在重新檢視所摘錄的筆記時被提供額外的資訊。舉例而言，一使用者可在呈現(例如演講或會議)期間進行筆記記錄，但無法在往後的重新檢視中記憶起與此些筆記相關聯的額外細節。筆記摘錄者在聆聽此呈現時嘗試著包含所有此些細節會導致：該筆記摘錄者在嘗試追蹤時遺失後續的細節。傳統的系統(例如速記、速記法、及快速的摘錄)時常難以學習，及對偶發性的對話係不切實用的。

本發明提供一種聲音串流擴充筆記摘錄。提供此發明內容以用一簡化的形式引入一選擇性概念的介紹，其進一步描述於後文的實施方式中。此發明內容無意於識別所請求發明內容的關鍵或必要特徵。此發明內容無意於經使用以限制所請求發明內容的範圍。

本發明提供一種聲音串流擴充筆記摘錄。與至少一發聲者相關聯的聲音串流可被記錄與轉換為文字塊。可從一使用者接收文字輸入，例如在一電子文件中。文字輸入可與文字塊相比較以識別此些匹配，及該匹配的文字塊可顯示至該使用者以供選擇。

前文的一般性詳述和後續的實施方式二者提供實例和僅為說明性的。從而，前文的一般性詳述和後續的實施方式可視為限制性的。再者，除了在此所描述者，可提供特徵或變化。舉例而言，具體實施例係關於在實施方式中描述的各種特徵組合和子組合。

後續的實施方式意指隨附圖式。若為可能，相同的參照編號可使用於圖式中，及後續的實施方式意指相同的或類似的元件。當描述本發明的具體實施例時，修正、調適、和其它實施係可能的。舉例而言，可對示例說明於圖式中的元件作出代替、增加或修正，及在此所描述的方法可藉由代替、重新排序、或新增步驟至所揭露的方法來進行修正。從而，後續的實施方式並未限制本發明。而是，本發明的適當範圍係由隨附的申請專利範圍來界定。

與本發明的具體實施相一致，可記錄在一筆記摘錄者周圍的聲音串流。可識別數個聲音(數個)，例如藉由文字至語音演算法，及分為數個句子及/或片語以提供新近的文字塊之緩衝。當筆記摘錄者作筆記時，其所鍵入的文字可與來自聲音串流的新近的句子和片語塊作匹配。自動完成的建議可提供至筆記摘錄者。此些建議可根據由筆記摘錄者所輸入的少量的文字來選擇和增加至所摘錄的筆記。

當一使用者正在作筆記時，例如在膝上型電腦或平板電腦上，在電腦中的麥克風可記錄在此區域中所有發聲。電腦可根據語音辨識匹配，將傳入語音轉換為文字串流。語音辨識演算法(例如基於隱藏馬可夫模型(HMM)的演算法)在如輸出一序列的符號或量的統計模型之習知技術中被熟悉的。在語音辨識中，HMM可定時地輸出一序列n維的實數向量(其中n係一小整數，例如10)，例如每10毫秒(millisecond)。該等向量包含：倒頻譜係數(cepstral coefficient)，其可藉由對語音的短時間視窗進行傅立葉轉換、使用一餘弦轉換對該頻譜解關聯性、及而後採取前面(最高有效)的係數來獲得。HMM具有對角線共變異數的高斯混合的統計分佈，其可提供每一觀測向量的一概似。每一單詞、或(對更為一般性的語音辨識系統而言)每一音素可具有不同的輸出分佈。藉由將分別的單詞或音素之訓練的個別HMM連結，產生一序列的單詞或音素的隱藏馬可夫模型。

語音辨識系統可使用數種標準技術之各種組合，以為了改善前文所描述的基本方法的結果。典型的大型字彙系統需要該等音素的上下文相依性(故具有不同的左上下文和右上下文的音素具有：如同HMM狀態的不同實現)。一語音辨識器可使用倒頻譜正規化以對不同的發聲者和記錄狀況進行正規化，及/或其可使用男性-女性(male-female)的聲道長度正規化(vocal tract length normalization,VTLN)和更為一般性的發聲者適應性的最大概似線性回歸(maximum likelihood linear regression,MLLR)。

當識別語音和將其轉換為文字時，每一單詞及/或片語可被指定一加權的機率，例如藉由評估上下文及/或文法規則。當轉換更多的語音時，可根據後續所識別的文詞及/或片語來調整機率。此外，使用者所擁有的筆記可使用以指定及/或調整機率。舉例而言，聲音串流可轉換為包含片語「4乘以8等於32(four times eight is thirty-two)」的文字串流。該轉換可根據在該片語中的其它數字的上下文而對第一個文詞係「4(four)」而非「用以(for)」指定一較高的機率，或對一使用者在靠近的時間點附近輸入文字「4乘以(four times)」指定一較高的機率。

所記錄的聲音串流及/或該轉換的文字串流可在一組態的時間量儲存於緩衝中。舉例而言，緩衝可保持在丟棄聲音串流及/或文字串流之前的前幾分鐘的記錄。此時間可例如根據使用者的喜好及/或裝置的功能來增加或減少。再者，在緩衝中的文字可根據停頓中止、句子斷點、片語斷點、及/或連接詞可區分為數個塊。舉例而言，過渡詞(如「前進(moving on)」、「下一個點(the next point)」、「否則(otherwise)」等等)可包含：在可使用以分隔該文字的片語邊界的清單中之項目。

當該使用者輸入文字時，該等塊可被用來搜尋可顯至該使用者的可能的匹配。舉例而言，該文字緩衝可包含：文句「聲音記錄係容易的，但聲音搜尋係困難的(Audio recording is easy, but audio searching is hard)」。若該使用者而後鍵入字母“a-u-d”，該等片語「聲音記錄係容易的(audio recording is easy)」和「聲音搜尋係困難的(audio searching is hard)」可識別為潛在地匹配的塊。可顯示此些塊以供選擇，例如在彈出式清單中，及該使用者可藉由習知的互動來選擇一者，例如滑鼠點擊所選擇的塊、按下一鍵(例如空白鍵或tab鍵)以選擇一顯示的塊、使用一觸控筆點擊一者等等。該等塊可根據與每一片語及/或文詞相關聯的時間標籤來顯示，例如以時間順序(時間為舊的在前)或相反的時間順序(時間為新的在前)來排列。

亦可藉由關聯性來排列該等塊。舉例而言，該文字串流可包含：該等塊「預先警告即為預先準備(forewarned is forearmed)」和「嘗試高的分數(try for a high score)」。若該使用者鍵入“f-o-r”，關聯性排列可導致：預先警告即為預先準備(forewarned is forearmed)片語可根據所鍵入的字母係較長的文詞的部份、較常地出現在該塊中，及與較為重要的文詞(如其中例如為“for”的介系詞可對其給予較低的重要性)相關聯，而較先地排列在該清單中。

第1圖係用以提供聲紋識別的作業環境100的方塊圖。作業環境100可包含：一使用者裝置105，該使用者裝置包含：耦合到語音至文字(STT)轉換器120的麥克風110。STT轉換器120可耦合至操作以儲存所轉換的文字之記憶體緩衝130。使用者裝置105進一步包含：筆記摘錄應用程式140，例如可通訊地耦接至STT轉換器120及/或緩衝130的文書處理應用程式。筆記摘錄應用程式140可操作以建立、開啟、編輯、及/或儲存例如為檔案的電子文件。

第2圖更為詳細地示例說明筆記摘錄應用程式140。筆記摘錄應用程式140可包含：一使用者界面區域210，該使用者界面區域經操作以接收一使用者文字輸入220。回應於接收使用者文字輸入220，筆記摘錄應用程式140可決定：從所記錄的語音轉換的和儲存於緩衝130的任何文字區段是否與在使用者文字輸入220中的文字相匹配。與本發明的具體實施例相一致，匹配可包含：例如語音(例如“for”匹配“four”)、及/或逐字元的匹配。筆記摘錄應用程式140可顯示例如在工具提示元件230中的匹配文字區段，其包含：複數個匹配的文字區段240(A)-(C)。最相關的匹配(例如接續最新近輸入的文字的文字區段)可包含：匹配的文字區段240(A)-(C)識別250的選擇，例如反白。該選擇識別可由該使用者來移動，例如藉由使用方向鍵，及匹配文字區段240(A)-(C)的所反白者可經選擇以用於置入使用者界面區域210，例如藉由使用者在其鍵盤按下輸入(Enter)及/或tab鍵、或藉由滑鼠及/或觸控筆選擇一選項。

第3圖係描述與本發明的具體實施例相一致的方法300中所涉及的一般性步驟之流程圖，該流程圖用以提供聲紋識別。方法300可使用如參照第4圖更為詳細地於後文描述的計算裝置400來實施。實施方法300的步驟之方式將於後文更為詳細地描述。方法300可開始於啟始方塊305及進行至步驟310，其中計算裝置400可記錄一語音串流至緩衝。舉例而言，使用者裝置105可藉由麥克風110來記錄聲音/語音串流。

從步驟310，方法300可進行至315，其中計算裝置400可轉換所記錄的語音串流至文字串流。舉例而言，STT轉換器120可執行隱藏馬可夫模型演算法以轉換所記錄的聲音為字元或文句。與本發明的具體實施例相一致，STT轉換器120可根據編程及/或文法規則來識別和置入標點符號。舉例而言，該文字串流可具有在停頓中止期間所置入的句點、及/或在連接詞之前所置入的逗點。

從步驟315，方法300可進行至步驟320，其中計算裝置400可增加中介資料至所轉換的文字串流。舉例而言，使用者裝置105可增加時間標籤至每一單詞，及/或在文字串流中的句子。中介資料亦可包含：有助於將所轉換的文字與來自該使用者的文字輸入相匹配的資料，例如常見的縮寫、拼錯字、及/或語音替代者。

從步驟320，方法300可進行至步驟325，其中計算裝置400可識別在所轉換的文字串流內的至少一文字塊。STT轉換器120及/或筆記摘錄應用程式140可識別在文詞之間的邏輯斷點，例如藉由識別在文字串流中的列舉、介系詞、及/或連接詞，及/或可識別片語及/或句子邊界的停頓中止。舉例而言，該文字串流可包含：數個列舉，例如「第一點(the first point)」、「第二項目(the second item)」、「下一個主題(the next topic)」、「最後一件事(the last thing)」等等。此些列舉可使用以識別片語及/或句子邊界。與本發明的具體實施例相一致，此類引入的片語及/或連接詞可分類為：相較於其所包圍的充滿內容的文字塊，與筆記摘錄較無關聯性。該文字串流的此些較無相關的部份可分離為其具有的數個塊，以從呈現至該使用者的建議中消除不必要的文詞，如同後文所描述者。

從步驟325，方法300可進行至步驟330，其中計算裝置400可接收一文字輸入。舉例而言，使用者裝置105的使用者可輸入至少一字元及/或文詞至筆記摘錄應用程式140。

從步驟330，方法300可行進至步驟335，其中計算裝置400可決定：該文字輸入是否與所轉換的文字串流之任何者相匹配。舉例而言，該文字串流可包含：「我們應該於下星期二安排一會議(We should set up a meeting for next Tuesday)。於2點鐘進行如何？(How does two o'clock work？)。」。該串流可分為二個(及/或更多個)塊，例如「於下星期二安排一會議(set up a meeting for next Tuesday)」和「於2點鐘進行如何(How does two o'clock work)」。若該使用者鍵入字母“m-e-e-t”，計算裝置400可識別「於下星期二安排一會議(set up a meeting for next Tuesday)」為一匹配的文字塊。若並無文字塊與所轉換的文字串流的至少一部份相匹配，方法300可返回至步驟330，及繼續接收文字輸入。

否則，方法300可進行至步驟340，其中計算裝置400顯示該匹配的文字塊以作為一建議。舉例而言，筆記摘錄應用程式140可在工具提示元件230中顯示：該匹配的文字塊。該顯示可接近顯示在筆記摘錄應用程式140的電子文件內的目前的文字輸入點。

從步驟340，方法300可進行至步驟345，其中計算裝置400可決定：該文字輸入是否至少部份地與至少一第二識別的文字塊匹配。舉例而言，筆記摘錄應用程式140可針對與該文字輸入匹配的任何文字塊來掃描緩衝130。

若額外的文字塊為匹配，方法300可進行至方法350，其中計算裝置400可顯示該至少一第二文字塊作為一第二建議的文字塊予該系統的該使用者。舉例而言，筆記摘錄應用程式140可以與關聯於與該文字塊的可能的關聯性的加權機率相關聯的順序，顯示複數個文字塊240(A)-(C)至該匹配的文字輸入。該匹配文字塊可被指定一加權的關聯性機率，例如藉由該文字輸入的時間點附近、藉由內容、及/或藉由上下文。加權關聯性的一些實例可包含：在10秒前所說出的匹配文詞相對於在30秒前所說出的相同文詞經加權為具有較高的關聯性，及/或在介系詞片語中的匹配的文詞相較於此片語外的相同的文詞經加權為較低的關聯性。

從步驟350，或若在步驟345中並無識別額外的匹配的文字塊，方法300可進行至步驟355，其中計算裝置400可接收該顯示的文字塊的一者之選擇。舉例而言，文字塊240(A)-(C)的一者可由一使用者藉由滑鼠及/或觸控筆來點擊。

從步驟355中，方法300可進行至步驟360，其中計算裝置400可置入所選擇的文字塊至在筆記摘錄應用程式140內的該電子文件。舉例而言，若該使用者已輸入字母“m-e-e-t”和選擇的該文字塊「在星期二與Sandy開會(Meeting with Sandy on Tuesday)」，可置入文句「在星期二與Sandy開會(Meeting with Sandy on Tuesday)」來取代所輸入的字母“m-e-e-t”。與本發明的具體實施例相一致，指定予每一文字塊的中介資料可使用以提供額外的資訊，例如藉由將“Sandy”與在使用者的通訊錄中的聯絡人相關聯，及/或根據該使用者的行事曆新增一日期給下個星期二。

從步驟360，方法300可進行至步驟365，其中計算裝置400可顯示循序地為後者的文字塊至該選擇的文字塊中。舉例而言，在置入該選擇的文字塊後，筆記摘錄應用程式140可使用與該置入的文字塊相關聯的時間標籤中介資料，以用循序的順序來識別該下一個文字塊，及可顯示該文字塊作為一建議予該使用者。舉例而言，在置入「在星期二與Sandy開會(Meeting with Sandy on Tuesday)」之後，筆記摘錄應用程式140可顯示一接續的片語「關於行銷努力(“marketing effort”)」作為一選擇的建議以置入該電子文件中。此建議可由該使用者來選擇以用於置入，如同關於步驟355所描述者。方法300而後可在步驟370中結束。

與本發明相一致的具體實施例可包含：用以提供聲音串流擴充筆記摘錄的系統。該系統可包含：一記憶體儲存和耦合至該記憶體儲存的處理單元。該處理單元可操作以：記錄與一發聲者相關聯的一聲音串流、轉換該聲音串流為文字塊、從一使用者接收一文字輸入、決定：該文字輸入是否與該等文字塊的一者相關聯。若為如此，顯示該至少一文字塊至該使用者，以作為在一選擇界面元件中的一建議。轉換該聲音串流為文字塊之步驟包含以下步驟：經操作以在該聲音串流上執行語音至文字轉換，及識別至少一文字塊邊界。該文字塊邊界可包含(例如)：一片語邊界、一句子邊界、及一時間邊界，及每一塊可與經操作以維持該等文字塊的一序列順序的時間標籤相關聯。該處理單元可進一步操作以：從該使用者接收該顯示的文字塊的選擇，及置入該顯示的至少一文字塊至一電子文件。該處理單元亦可操作以：顯示額外的文字塊，例如接續於使用者選擇的文字塊之此些文字塊。與本發明的具體實施例相一致，該處理單元可操作以：識別與該文字輸入匹配的複數個文字塊，及顯示此些方塊的至少一些者。可例如根據對該使用者的文字輸入的關聯性，或根據與該轉換的文字相關聯的時間標籤按照時間順序，排序該顯示的文字塊。

與本發明相一致的另一具體實施例包含：用以提供聲音串流擴充筆記摘錄的系統。該系統可包含：一記憶體儲存和耦合至該記憶體儲存的一處理單元。該處理單元可操作以記錄一聲音串流至一緩衝、轉換該聲音串流為一文字串流、識別與該文字串流相關聯的至少一文字塊、從一使用者接收對一電子文件的文字輸入，及決定：該文字輸入是否至少部份地與該至少一文字塊相匹配。若該文字輸入與該文字塊匹配，該處理單元可操作以：顯示該至少一文字塊至該使用者，作為一擇擇的元件，、從該使用者接收該顯示的至少一文字塊的選擇、及置入該至少一文字塊至該電子文件。該處理單元可進一步操作以：例如藉由在所記錄聲音串流中的停頓中止、一句子邊界、在該文字串流內的一連接詞、及/或一片語邊界，識別與該文字串流相關聯的複數個文字塊。該處理單元可進一步操作以：顯示至少部份地與該文字輸入匹配的該等複數個文字塊之每一者至該使用者，作為選擇元件的一清單、從該使用者接收一第二文字輸入、及從選擇元件的該清單中，移除並不至少部份地與該第二文字輸入匹配的該顯示的複數個文字塊的任何者。該處理單元可操作以：儲存該記錄的聲音串流的可組態的時間區段。舉例而言，可儲存前5、10、或15分鐘的轉換的記錄。該處理單元亦可操作以決定：一特定的聲音串流何時超過，例如其係藉由識別一延長的停頓中止，或偵測到：該使用者已停止相關的記錄裝置，和用該電子文件儲存相關的轉換的文字塊。

與本發明的相一致的又另一具體實施例可包含：用以提供聲音串流擴充筆記摘錄的系統。該系統包含：一記憶體儲存及耦合至該記憶體儲存的一處理單元。該處理單元可操作以：記錄一聲音串流至緩衝中，其中該緩衝包含：足夠以儲存一可組態的時間區段的記錄的語音串流的記憶體儲存內的一記憶體量、轉換儲存在該緩衝中的記錄的語音串流至包含複數個文詞的相對應的文字串流、將含有一時間標籤的中介資料與該等複數個文詞的每一者相關聯、識別在相對應的文字串流內的至少一文字塊、從該系統的一使用者接收一文字輸入至一電子文件、決定：該文字輸入是否至少部份地與該至少一文字塊相匹配，其中該至少一文字塊包含：在相對應的文字串流內的最新近的識別的文字塊，以回應於決定該文字輸入至少部份地與該至少一文字塊相匹配、及顯示該至少一文字塊作為一建議的文字塊予該系統的使用者。該處理單元進一步操作以決定：該文字輸入是否至少部份地與至少一第二識別的文字塊匹配，顯示該至少一第二文字塊作為一第二建議的文字塊予該系統的使用者、從該系統的該使用者接收該至少一文字塊和至少一第二文字塊的至少一者的選擇、置入該至少一文字塊和該至少一第二文字塊的該選擇的至少一者至該電子文件、及顯示至少一第三文字塊作為一第三建議的文字塊，其中該至少一第三文字塊包含：來自該至少一文字塊和該至少一第二文字塊的該選擇的至少一者的循序地為後者的文字塊。

第4圖係包含計算裝置400的系統之方塊圖。與本發明的具體實施例相一致，前述的記憶體儲存和處理單元可實施在一計算裝置中，例如第4圖中的計算裝置400。硬體、軟體、或韌體的任何適當組合可使用以實施該記憶體儲存和處理單元。舉例而言，記憶體儲存和處理單元可與計算裝置400、或其它計算裝置418的任何者結合計算裝置400來實施。前述的系統、裝置、處理器為實例，及其它系統、裝置、處理器可包含：前述的記憶體儲存和處理單元，其與本發明的具體實施例相一致。再者，計算裝置400可包含：如同前文所描述者的系統的作業環境。該系統可操作於其它環境，及不限於計算裝置400。

參照第4圖，與本發明的具體實施例相一致的系統可包含：一計算裝置，例如計算裝置400。在基本的組態中，計算裝置400可包含：至少一處理單元402和一系統記憶體404。取決於計算裝置的組態和類型，系統記憶體404可包含(但不限於)：揮發性(例如隨機存取記憶體(RAM))、非揮發性記憶體(例如唯讀記憶體(ROM))、快閃記憶體、或任何組合。系統記憶體404可包含：作業環境405、緩衝130、及一或更多個可程式化模組406，該等可程式化模組包含：筆記摘錄應用程式140及/或STT轉換器120。作業環境405可例如適合於控制計算裝置400的操作。在一具體實施例中，程式化模組406可包含：聲紋產生器407，該聲紋產生器可操作以分析所記錄的聲音及產生一聲紋簽章。再者，本發明的具體實施例可結合繪圖資料庫、其它作業系統、及任何其它應用程式來實施，但不限於任何特定的應用程式或系統。此基本組態藉由在虛線408內的此些元件示例說明於第4圖中。

計算裝置400可具有額外的特徵或功能性。舉例而言，計算裝置400亦可包含：額外的資料儲存裝置(可移除及/或不可移除)，例如磁碟、光碟、或磁帶。此額外的儲存可藉由可移除儲存409和不可移除儲存410示例說明於第4圖中。計算裝置400亦可包含：通訊連接416，該通訊連接可允許裝置400以與其它計算裝置418相通訊，例如透過在分散式計算環境中的網路(例如企業內部網路或網際網路)。通訊連接416係通訊媒體的一實例。

在此所使用的詞彙「電腦可讀取媒體」可包含：電腦儲存媒體。電腦儲存媒體可包含：揮發性和非揮發性、可移除和不可移除媒體，其可以任何方法或技術來儲存資訊，例如電腦可讀取指令、資料結構、程式模組、或其它資料。系統記憶體404、可移除儲存409、及不可移儲存410係所有的電腦儲存媒體實例(例如記憶體儲存)。電腦儲存媒體可包含(但不限於)：RAM、ROM、電子式的可抹除唯讀記憶體(EEPROM)、快閃記憶體、或其它記憶體技術、CD-ROM、數位多媒體影音光碟(DVD)、或其它光學儲存、磁匣、磁帶、磁碟儲存、或其它磁性儲存裝置、或任何可使用以儲存資訊和可由計算裝置400存取的其它媒體。任何此類的電腦儲存媒體可為裝置400的部份。計算裝置400亦可具有：輸入裝置(多個)412，例如鍵盤、滑鼠、筆、聲音輸入裝置、觸控輸入裝置等等。亦可包含：輸出裝置(多個)414(例如顯示、揚聲器、印表機等等)。前述的裝置為實例，及其它者可被使用。

在此使用的詞彙「電腦可讀取媒體」亦可包含：通訊媒體。通訊媒體可藉由電腦可讀取指令、資料結構、程式模組、或在調變訊號中的資料來體現，例如載波或其它傳輸機制，及包含：任何資訊傳送媒體。詞彙「調變的資料訊號」可描述：具有一或更多個特性集或以將資訊編碼在訊號中的方式來改變的訊號。藉由實例方式，而非限制，通訊媒體可包含：有線媒體，例如有線網路或直接線路連接，及無線媒體，例如聲音、射頻(RF)、紅外線、及其它無線媒體。

如前文所描述者，複數個程式模組和資料檔案可儲存於系統記憶體404中，其包含：作業環境405。當在處理單元402上執行時，程式模組406(例如筆記摘錄應用程式140及/或STT轉換器120)可執行程序，該程序包含(例如)：一或更多個方法300的步驟，如前文所描述者。前述的程序係一實例，及處理單元402可執行其它程序。可根據本發明的具體實施例使用的其它程式模組可包含：電子郵件和通訊錄應用程式、文書處理應用程式、試算表應用程式、資料庫應用程式、投影片呈現應用程式、繪圖或電腦輔助應用程式等等。

一般而言，與本發明的具體實施例相一致，程式模組可包含：常式、程式、元件、資料結構、及可執行特定任務或可實施特定抽象資料型別的其它類型的結構。再者，本發明的具體實施例可與其它電腦系統組態來實施，其包含：手持裝置、多處理器系統、微處理器式或可程式化的消費性電子、迷你電腦、大型電腦、及其類似者。本發明的具體實施例亦可在分散式的計算環境中實施，其中任務係藉由透過通訊網路鏈結的遠端處理裝置來執行。在一分散式的計算環境中，程式模組可位於本地端和遠端記憶體儲存裝置二者。

再者，本發明的具體實施例可在電子電路中實施，該電子電路包含：離散的電子元件、封裝或整合的包含有邏輯閘的電子晶片、使用微處理器的電路，或在包含電子元件或微處理器的單一晶片上執行。本發明的具體實施例亦可使用能執行邏輯操作的其它技術來實施，例如AND、OR、和NOT，其包含(但不限於)：機械、光學、流體、及量子技術。此外，本發明的具體實施例可在一般性目的電腦或任何其它電路或系統來實施。

本發明的具體實施例可例如實施為電腦程序(方法)、計算系統、或實施為一製造物項，例如電腦程式產品或電腦可讀取媒體。電腦程式產品可為由電腦系統讀取和將電腦程式指令編碼以執行電腦程序的電腦儲存媒體。電腦程式產品亦可為在一載波上可由計算系統讀取和將電腦程式指令編碼以用於執行電腦程序的的傳遞訊號。從而，本發明可體現於硬體及/或軟體(其包含：韌體、常駐軟體、徵代碼等等)中。換言之，本發明的具體實施例可採用在電腦可使用或電腦可讀取儲存媒體上的電腦程式產品的形式，該媒體具有體現於該媒體中的電腦可使用或電腦可讀取程式碼以由指令執行系統使用和與指令執行系統結合。電腦可使用或電腦可讀取媒體可為：包含、儲存、通訊、傳遞、或傳輸由指令執行系統、裝置、或設備使用、或與指令執行系統、裝置、或設備結合的程式的任何媒體。

電腦可使用或電腦可讀取媒體可例如為(但不限於)：電子、磁性、光學、電磁、紅外線、或半導體系統、裝置、設備、或傳播媒體。更為特定的電腦可讀取媒體實例(非窮盡性列表)，電腦可讀取媒體可包含下列各者：具有一或更多導線的電氣連接、可攜式電腦磁匣、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除的可程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、及可攜式光碟唯讀記憶體(CD-ROM)。注意到：電腦可使用或電腦可讀取媒體可為程式列印於其上的紙張或另一適當的媒體，如同程式可藉由例如紙張或其它媒體的光學掃描來電子式地獲取，然後加以編譯、直譯、或另外地以適當的方式來進行，若為必要，則然後儲存於電腦記憶體中。

本發明的具體實施例例如參照方塊圖及/或根據本發明的具體實施例的方法、系統、及電腦程式產品的操作說明來描述。在方塊中所註記的功能/步驟可不同於顯示於任何流程圖中的順序來執行。舉例而言，連續顯示的二個方塊可實質上同時地執行，或方塊有時以相反順序來執行，其取決於相關的功能性/步驟。

當描述了本發明的具體實施例，其它的具體實施例亦存在。再者，雖然本發明的具體實施例經描述為與儲存於記憶體和其它儲存媒體中的資料相關聯，資料亦可儲存於其它類型的電腦可讀取媒體中、或從其它類型的電腦可讀取媒體讀取，例如次要的儲存裝置，類似硬碟、軟碟、或CD-ROM，來自網際網路的載波，或其它形式的RAM或ROM。再者，所揭露的方法之步驟可以任合方式來修改，其包含：藉由重新排列步驟及/或置入或刪除步驟，而不偏離本發明。

可授與包含在此的程式碼中的著作權之所有權利，及其為申請人的財產。申請人保持和保留在此包含的程式碼之所有權利，及准許僅與所准專利的重製品結合以重製此材料，而並無其它目的。

當說明書包含實例時，本發明的範圍係由隨附的申請專利範圍來指示。再者，當以特定於結構特徵及/或方法步驟的語言來描述說明書時，申請專利範圍並不限於前文所描述的特徵或步驟。而是，前文所描述的特定的特徵和步驟經揭露為本發明的具體實施例的實例。

100．．．作業環境

105．．．使用者裝置

110．．．麥克風

120．．．語音至文字轉換器

130．．．記憶體緩衝

140．．．筆記摘錄應用程式

210．．．使用者界面區域

220．．．使用者文字輸入

230．．．工具提示元件

240(A)-(C)．．．匹配的文字區段

250．．．識別

400．．．計算裝置

402．．．處理單元

404．．．系統記憶體

405．．．作業環境

406．．．可程式化模組

408．．．虛線

409．．．可移除儲存

410．．．不可移除儲存

412．．．輸入裝置

414．．．輸出裝置

416．．．通訊連接

418．．．計算裝置

隨附圖式示例說明本發明的各種具體實施例，其在此引入及組成該揭露的一部份。在圖式中：

第1圖係作業環境的方塊圖。

第2圖係筆記摘錄應用程式的方塊圖。

第3圖係用以提供聲紋識別的方法之流程圖。

第4圖係包含一計算裝置的系統之方塊圖。