TWI668629B - 欄位條目的音訊輸入技術 - Google Patents
欄位條目的音訊輸入技術 Download PDFInfo
- Publication number
- TWI668629B TWI668629B TW105130238A TW105130238A TWI668629B TW I668629 B TWI668629 B TW I668629B TW 105130238 A TW105130238 A TW 105130238A TW 105130238 A TW105130238 A TW 105130238A TW I668629 B TWI668629 B TW I668629B
- Authority
- TW
- Taiwan
- Prior art keywords
- input
- audio input
- field
- information processing
- fillable
- Prior art date
Links
- 238000005516 engineering process Methods 0.000 title description 3
- 230000010365 information processing Effects 0.000 claims description 30
- 238000003672 processing method Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 abstract description 20
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 235000012431 wafers Nutrition 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
公開了欄位條目的音訊輸入。實施方式提供了一種方法,包括:使用處理器訪問包括至少一個可填充欄位的表單;從聲音輸入裝置接收來自用戶的音訊輸入;使用處理器識別與音訊輸入相關聯的可填充欄位;以及基於音訊輸入向與音訊輸入相關聯的可填充欄位提供輸入。還描述和要求保護了其他方面。
Description
發明領域 本發明涉及資訊處理方法和設備,具體地,涉及能夠實現欄位條目的音訊輸入的方法和設備。
發明背景 資訊處理設備(“設備”),例如蜂窩電話、智慧型電話、平板設備、膝上型電腦、個人電腦等,使得用戶能夠通過多種源來提供輸入。用戶可以使用多種輸入方法(例如,標準鍵盤、軟鍵盤輸入、姿勢輸入、音訊輸入等)為應用提供輸入。根據設備的規格,這些輸入方法中的一些可能比另一些更方便。例如,如果用戶正為智慧型電話提供輸入,則由於智慧型電話的小規格,音訊輸入可能更方便。然而,在一些情況下,基於設備的規格的最方便輸入方法可能不是基於用戶想要進行的輸入的最方便輸入方法。
發明概要 總之,一方面提供了一種資訊處理方法,該資訊處理方法包括:使用處理器訪問包括至少一個可填充欄位的表單;從聲音輸入裝置接收來自用戶的音訊輸入;使用處理器識別與音訊輸入相關聯的可填充欄位;以及基於音訊輸入向與音訊輸入相關聯的可填充欄位提供輸入。
另一方面提供了一種資訊處理設備,該資訊處理設備包括:聲音輸入裝置;處理器,其操作上耦接至聲音輸入裝置;存放裝置,其存儲有指令,所述指令能夠被處理器執行以便:訪問包括至少一個可填充欄位的表單;從聲音輸入裝置接收來自用戶的音訊輸入;識別與音訊輸入相關聯的可填充欄位;以及基於音訊輸入向與音訊輸入相關聯的可填充欄位提供輸入。
根據上述資訊處理設備,其中,所述指令還能夠被所述處理器執行以將所述音訊輸入與所述至少一個可填充欄位進行比較。
根據上述資訊處理設備,其中,所述識別包括基於與所述音訊輸入具有相似性的可填充欄位來識別所述可填充欄位。
根據上述資訊處理設備,其中,所述提供輸入包括向所述可填充欄位提供所述音訊輸入的至少一部分。
根據上述資訊處理設備,其中,所述指令還能夠被所述處理器執行以對所述音訊輸入進行解析。
根據上述資訊處理設備,其中,所述音訊輸入包括欄位識別字,並且其中,所述提供包括向與所述欄位識別字相關聯的可填充欄位提供輸入。
根據上述資訊處理設備,其中,所述指令還能夠被所述處理器執行以訪問與所述音訊輸入相關聯的上下文資料。
根據上述資訊處理設備,其中,所述識別包括基於所述上下文資料來識別所述可填充欄位。
根據上述資訊處理設備,其中,所述指令還能夠被所述處理器執行以訪問所述表單的原始程式碼,並且其中,所述識別包括基於所述原始程式碼來識別所述可填充欄位。
又一方面提供了一種產品,該產品包括:存放裝置,其存儲有能夠被處理器執行的代碼,所述代碼包括:用於訪問包括至少一個可填充欄位的表單的代碼;用於從聲音輸入裝置接收來自用戶的音訊輸入的代碼;用於識別與音訊輸入相關聯的可填充欄位的代碼;以及用於基於音訊輸入向與音訊輸入相關聯的可填充欄位提供輸入的代碼。
以上是概要,因此可以包括對細節的簡化、概括和省略;因此,本領域技術人員應當理解,該概要僅僅是說明性的並且不意圖以任何方式進行限制。
為了更好地理解實施方式以及實施方式的其他和另外的特徵及優點,結合附圖來參考以下描述。在所附申請專利範圍中指出了本發明的範圍。
較佳實施例之詳細說明 容易理解的是,除了所描述的示例實施方式以外,還可以以多種不同的配置來佈置和設計本文的附圖中一般地描述並且示出的實施方式的部件。因此,圖中所表示的示例實施方式的以下更詳細描述不意圖對所要求保護的實施方式的範圍進行限制,而僅代表示例實施方式。
貫穿本說明書對”一種實施方式”或”實施方式”(等)的引用意味著結合該實施方式所描述的特定特徵、結構或特性被包括在至少一種實施方式中。因此,在本說明書的多個地方出現的短語”在一種實施方式中”或”在實施方式中”等不一定都指代同一實施方式。
此外,在一個或多個實施方式中,可以以任何適當的方式對所描述的特徵、結構或特性進行組合。在下面的描述中,提供了許多具體細節以給出對實施方式的全面理解。然而,本領域技術人員將認識到,可以在沒有一個或多個具體細節的情況下,或者使用其他方法、部件、材料等來實踐各種實施方式。在其他實例中,沒有詳細示出或描述公知的結構、材料或操作以避免混淆。
某些輸入方法可能對於特定設備更方便。例如,使用膝上型電腦,可能使用標準鍵盤更方便。然而,在較小設備或沒有附接常規鍵盤的設備上,例如平板設備、智慧型電話等,使用較不常規的輸入方法(例如音訊輸入、姿勢輸入等)可能更方便。關於這些較不常規的輸入方法的一個問題在於:可能沒有考慮這些輸入方法來設計用戶試圖進行的輸入。例如,如果用戶正向表單提供輸入,則提供音訊輸入可以導致更令人厭煩的資料登錄。在常規的欄位輸入中,用戶可以為所選擇的或所突出的欄位提供音訊輸入,然後不得不手動地選擇(例如,使用鍵盤、滑鼠、軟鍵盤輸入等)用戶想要提供輸入的下一個欄位。使用設置在設備上的軟鍵盤來提供文本輸入也可能是非常令人厭煩的,並且可能不是對所有用戶可用,例如,如果用戶具有殘障,在免持環境(hands-free environment)中等等。
另一解決方案依賴於用僅語音(voice only)輸入表單來代替輸入表單。例如,替代於標準連絡人列表,系統用語音輸入連絡人列表來代替連絡人列表。然後,用戶可以提供音訊輸入,該音訊輸入基於用戶的命令而在欄位中移動。關於該系統的一個問題在於:用戶不得不提供特定命令以在表單中導航(navigate)。用戶可能會忘記該命令,這導致用戶受挫。另外,用戶不能唯一地標識欄位,所以他們必須順序地在整個欄位中導航,通常包括所有互動式頁面元素,如按鈕或放射狀按鈕(radial button)。結果是系統變得易於出錯並且不精確。關於該方法的另一問題在於整個系統被以下系統所代替:該系統被特意程式設計為純語音的。如果用戶想提供除了語音輸入以外的輸入,則用戶不能使用這種方法來這樣做。另外,必須使用這種系統來替換用戶想要填充的每個表單或欄位條目。換言之,必須用新的特意程式設計的應用來完全代替每個應用,而不是具有與任何應用進行對接的系統。
當向欄位提供免持輸入以及提供在欄位之間的導航時,這些技術問題會出現問題。通常的應用要求用戶提供兩個不同類型的輸入,一個用於向欄位提供輸入,而另一個用於導航至不同的欄位,使得這種類型的資料登錄令人厭煩並且不方便。一些應用可以允許語音輸入和導航,但是要求應用為該目的而被特意編碼,並且將不會與其他應用進行對接。另外,在通常的基於語音的應用中,用戶必須提供特定命令,以在表單上的不同欄位中進行導航,這可能導致提供音訊輸入的不自然的方式。
因此,實施方式提供了從用戶接收音訊輸入的方法,對用戶而言,這可以以更自然的方式來講出。系統可以識別表單中的可填充欄位,並且基於音訊輸入為該欄位提供輸入,這為用戶提供了與表單中的欄位進行交互的更加無縫和方便的方式。例如,用戶可以通過說出”John Doe, (123)555-6789”來提供用於添加新連絡人的音訊輸入。一種實施方式可以對音訊輸入進行解析,並且識別出”John Doe”適合於”連絡人姓名”欄位,並且用正確的姓名填充該欄位。實施方式可以另外地識別出”(123)555-6789”適合於”電話號碼”欄位,並且可以據此來填充該欄位。
在識別與音訊輸入相關聯的欄位中,一種實施方式可以將音訊輸入與表單中的可填充欄位進行比較。例如,如果用戶提供了社會安全號碼,那麼實施方式可以將音訊輸入的格式與欄位的期望值進行比較,以識別應該將輸入提供給哪個欄位。一種實施方式可以訪問其他資料,以便識別欄位。例如,一種實施方式可以訪問欄位識別字、與表單或欄位相關聯的原始程式碼等,以識別欄位。另外,一種實施方式可以使用音訊輸入或表單中的上下文資料,以識別應該將輸入提供給哪個欄位。
參照附圖可以最佳地理解所示的示例實施方式。下面的描述僅意圖作為示例,並且僅示出了某些示例實施方式。
雖然關於智慧型電話和/或平板設備電路系統100,在資訊處理設備中可以採用各種其他電路、電路系統或部件,但是圖1所示的示例包括例如在平板設備或其他移動計算平臺中具有的片上系統設計。軟體和處理器被結合在單個晶片110中。如本領域公知的,處理器包括內部算術單元、寄存器、快取記憶體記憶體、匯流排、I/O埠等。內部匯流排等取決於不同的供應商,但是基本上所有週邊設備(120)可以附接至單個晶片110。電路系統100將處理器、記憶體控制器和I/O控制器集線器都結合在單個晶片110中。此外,這種類型的系統100通常不使用SATA或PCI或LPC。公用介面例如包括SDIO和I2C。
存在電力管理晶片130,例如電池管理單元BMU,其管理例如經由可再充電電池140供應的電力,可再充電電池140可以通過連接至電源(未示出)而被再充電。在至少一種設計中,單個晶片如110用於提供BIOS類似功能以及DRAM記憶體。
系統100通常包括用於與各種網路(如電信網路)和無線網際網路設備(例如接入點)連接的WWAN收發器150和WLAN收發器160中的一個或多個。另外,通常包括有設備120,例如聲音輸入裝置如麥克風。系統100經常包括用於資料登錄以及顯示/呈現的觸控式螢幕170。系統100通常還包括各種記憶體設備,例如,快閃記憶體180和SDRAM 190。
圖2描繪了資訊處理設備電路、電路系統或部件的另一示例的框圖。圖2中描繪的示例可以與北卡羅來納州莫里斯維爾的聯想(美國)公司銷售的THINKPAD系列個人電腦的計算系統或其他設備相對應。如根據本文中的描述顯而易見的,實施方式可以包括其他特徵或僅包括圖2所示的示例的特徵中的一些特徵。
圖2的示例包括所謂的晶片組210(一起工作的一組積體電路或晶片、)晶片組),晶片組210具有可以根據製造商(例如,INTEL、AMD、ARM等)而不同的架構。INTEL是因特爾公司在美國和其他國家的注冊商標。AMD是超微半導體公司在美國和其他國家的注冊商標。ARM是安謀國際科技股份有限公司在美國和其他國家的未注冊商標。晶片組210的架構包括核和記憶體控制器組220以及I/O控制器集線器250,其經由直接管理介面(DMI)242或鏈路控制器244交換資訊(例如,資料、信號、命令等)。在圖2中,DMI 242是晶片對晶片介面(有時稱為”北橋”與”南橋”之間的鏈路)。核和記憶體控制器組220包括經由前端匯流排(FSB)224交換資訊的一個或多個處理器222(例如,單核或多核)和記憶體控制器集線器226;注意,組220的部件可以被集成在代替了常規”北橋”型架構的晶片中。如本領域公知的,一個或多個處理器222包括內部算術單元、寄存器、快取記憶體記憶體、匯流排、I/O埠等。
在圖2中,記憶體控制器集線器226與記憶體240對接(例如,為可以被稱為”系統記憶體”或”記憶體”的一種RAM提供支援)。記憶體控制器集線器226還包括用於顯示裝置292(例如,CRT、平板顯示器、觸控式螢幕等)的低壓差分信號(LVDS)介面232。塊238包括可以經由LVDS介面232(例如,串列數位視訊、HDMI/DVI、顯示埠)支援的一些技術。記憶體控制器集線器226還包括可以支援獨立顯卡236的PCI-express介面(PCI-E)234。
在圖2中,I/O控制器集線器250包括SATA介面251(例如,用於HDD、SDD等,280)、PCI-E介面252(例如,用於無線連接282)、USB介面253(例如,用於諸如數位轉換器、鍵盤、滑鼠、攝像機、電話、麥克風、記憶體、其他連接設備等的設備284)、網路介面254(例如,LAN)、GPIO介面255、LPC介面270(用於ASIC 271、TPM 272、超級I/O 273、固件集線器274、BIOS支援275、以及諸如ROM 277、快閃記憶體278和NVRAM 279的各種類型的記憶體276)、電力管理介面261、時鐘發生器介面262、音訊介面263(例如,用於揚聲器294)、TCO介面264、系統管理匯流排界面265、以及可以包括BIOS 268和啟動代碼290的SPI快閃記憶體266。I/O控制器集線器250可以包括千兆比特乙太網支援。
系統在通電時可以被配置成對BIOS 268執行存儲在SPI快閃記憶體266中的啟動代碼290,此後,在一個或多個作業系統和應用軟體(例如,存儲在系統記憶體240中)的控制下對資料進行處理。作業系統可以被存儲在多個位置中的任意位置中,並且例如根據BIOS 268的指令而被訪問。如本文中所描述的,設備可以包括比圖2的系統中所示的更少或更多的特徵。
對於圖1或圖2中示出的示例,資訊處理設備電路系統可以用在通常如平板設備、智慧型電話、個人電腦設備的設備中,和/或用戶可以用於為可填充欄位提供輸入的電子設備中。例如,可以在平板設備或智慧型電話實施方式中實現圖1中示出的電路系統,而可以在個人電腦實施方式中實現圖2中示出的電路系統。
現在參照圖3,在301處,實施方式可以訪問包括至少一個可填充表單的表單。訪問表單可以包括:下載並打開表單,用戶打開具有供用戶輸入的欄位的應用,從另外的源接收表單,打開具有可填充欄位的網頁等。例如,用戶可以訪問包含在設備上的、具有要求用戶輸入的欄位的應用。一些示例表單可以包括連絡人列表、互動式可填充表單(例如,工作申請、納稅申報表、擔保表格、登記表等)、具有欄位的網頁、具有要求用戶輸入的欄位的應用等。可填充欄位可以包括用戶可為其提供輸入的任何欄位。
在302處,實施方式可以從聲音輸入裝置接收來自用戶的音訊輸入。此音訊輸入可以包括與表單中的欄位相對應的輸入。用戶可以提供包括欄位稱號的輸入。例如,用戶可以陳述”姓名:Plumber Joe,工作號:(555)999-8888”。可替選地,用戶可以提供與表單的欄位稱號不匹配的欄位稱號。例如,用戶可以陳述”欄位1:Jack,欄位2:1234-5678-9101-1121”。在一種實施方式中,用戶可以提供沒有欄位稱號的輸入。例如,用戶可以使用自然語言說話來提供輸入,並且陳述”Jane D. Smith,555-55-5555, 1234 W. 第五大街,紐約,99999”。
在接收音訊輸入時,在303處,實施方式可以識別可填充欄位是否可以與音訊輸入相關聯。在一種實施方式中,該識別可以包括對音訊輸入進行解析以識別輸入的不同部分。例如,系統可以對音訊進行解析,並且識別出輸入包括欄位識別字(例如,欄位的名稱、用於欄位的指示符、與欄位相關聯的文本、欄位的標識號等)。然後,音訊欄位識別字可以用於找出與所述欄位識別字匹配的、表單中的欄位識別字。然後,該欄位可以與所提供的音訊輸入相關聯。如果用戶為不止單個可填充欄位提供輸入,則實施方式可以識別與音訊輸入的每一部分相關聯的欄位。可替選地,用戶可以提供以下輸入:該輸入不包括欄位識別字的名稱,而是包括:欄位的編號(例如,”欄位1”、”欄位2”等)、自然語言話語(例如,”Jane Smith,第二大街1700號”等)、與欄位識別字的相似性(例如,欄位識別字描述”手機號碼”,用戶陳述”手機: (777)777-7777”)、部分欄位識別字(例如,欄位識別字是”全名”,用戶陳述”姓名:Jackie Jones”)、或其他類型的稱號。
一種實施方式可以將音訊輸入與至少一個可填充欄位進行比較。例如,實施方式可以訪問與表單相關聯的原始程式碼,以識別欄位識別字、期望值、欄位格式等。基於此資訊,實施方式可以將所提供的輸入與欄位進行比較,以找出與音訊輸入匹配的或者可能與音訊輸入最密切相關的欄位。例如,如果用戶提供了包括數位的輸入,則實施方式可以將所接收的數位與所期望的在欄位中的輸入進行比較。例如,如果用戶提供了具有十位的電話號碼,則實施方式可以識別出期望數位並且還期望十個數位的欄位。使用該資訊,實施方式可以將該欄位與輸入相關聯。
一種實施方式可以識別出可填充欄位與音訊輸入具有相似性。例如,如果用戶提供了中間名首字母,則實施方式可以僅識別出期望文本值而不是數位值的欄位。這些欄位將被視為與音訊輸入具有相似性。實施方式還可以識別出期望單個字元的欄位。然後,這些欄位將與音訊輸入具有較大相似性。在一種實施方式中,可以使用值來測量相似性。例如,與另外的欄位相比,一個欄位可以與輸入具有更大的相似性,這可以導致更高的值。如果該值達到了特定閾值,則實施方式可以確定這是應該與音訊輸入相關聯的欄位。關聯還可以基於置信度分數(confidence score)。每個相關聯的欄位可以具有置信度分數,該置信度分數與其表示系統是多麼確信這是正確的欄位相關聯。置信度分數在特定閾值以下的欄位可能需要用戶確認輸入已經被正確地關聯。
實施方式能夠使用音訊輸入的上下文來識別用戶正在提供什麼輸入。例如,如果用戶正在提供與詞相結合的數位,則實施方式可以使用上下文來將輸入識別為街道位址。另外,實施方式可以使用表單的上下文來識別音訊輸入應該相關聯的正確欄位。例如,實施方式可以例如通過使用光學字元辨識(OCR)、使用表單的格式、使用示例表單、將表單與先前識別的表單的庫進行比較等,來識別出表單是納稅申報表格。基於將表單識別為納稅申報表格,實施方式能夠使用上下文來將音訊輸入與表單中的正確欄位更好地相關聯。
在303處,如果實施方式不能識別可填充欄位,則在305處,實施方式可以不採取動作。另外,在302處,實施方式可以等待從用戶接收另外的音訊輸入。作為替選,實施方式可以向用戶指出音訊輸入不能與可填充欄位相關聯,並且可以請求來自用戶的另外輸入。例如,實施方式可以請求用戶重複音訊輸入,重複音訊輸入的一部分,確認欄位是正確欄位等。用戶還可以提供非音訊輸入,例如,用戶可以使用軟鍵盤來選擇或指示正確的欄位。
然而,如果在303處實施方式能夠識別相關聯的可填充欄位,則在304處,實施方式可以基於音訊輸入向該可填充欄位提供輸入。輸入可以包括所提供的音訊輸入的全部或僅一部分。例如,如果實施方式識別出音訊輸入包括對於不止一個欄位的輸入,則實施方式可以提供與特定欄位相對應的、音訊輸入的僅一部分。然後,實施方式可以向正確的欄位提供與其他欄位相關聯的輸入。在一種實施方式中,所提供的輸入可以包括機器文本。例如,系統可以將音訊輸入轉換成機器文本,好像用戶已經將輸入鍵入表單。
因此,本文中描述的各種實施方式描述了對設備上的免持導航的技術改進。使用本文中描述的技術,用戶可以使用單個輸入源來向可填充欄位提供輸入並且在可填充欄位中進行導航。另外,用戶可以以更自然的方式提供輸入,而無需特定命令。本技術提供了通過系統上已經存在的應用,而不是替換整個系統,來進行導航的替選方法。系統可以獨立於所有應用,並且從而與任何應用進行對接。另外,通過使用音訊輸入與表單字段之間的關聯,在不瞭解實際表單的情況下,系統能夠在不同欄位中進行導航。
如本領域的技術人員應當理解的,各個方面可以被實施為系統、方法或設備程式產品。因此,各個方面可以採取完全硬體實施方式的形式或者包括軟體的實施方式的形式,它們在本文中都可以一般地稱為”電路”、”模組”或”系統”。此外,各個方面可以採用在一個或多個設備可讀介質中實現的設備程式產品的形式,所述一個或多個設備可讀介質包含有設備可讀程式碼。
應當注意,本文中描述的各種功能可以使用存儲在設備可讀存儲介質(如非信號存放裝置)上的由處理器執行的指令來實現。存放裝置可以是例如電子的、磁的、光的、電磁的、紅外的或半導體系統、裝置或設備,或上述的任意適當組合。存儲介質的更加具體的示例可以包括以下項:可擕式電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦除可程式設計唯讀記憶體(EPROM或快閃記憶體)、光纖、可擕式光碟唯讀記憶體(CD-ROM)、光存放裝置、磁存放裝置、或上述的任意適當組合。在本文獻的上下文中,存放裝置不是信號,並且”非暫態”包括除了信號介質以外的所有介質。
可以使用任何適當的介質來發送包含在存儲介質上的程式碼,這些介質包括但不限於無線的、有線的、光纜、RF等、或上述的任意適當組合。
可以以一種或多種程式設計語言的任何組合來編寫用於執行操作的程式碼。程式碼可以完全在單個設備上執行、可以部分地在單個設備上執行、可以作為獨立套裝軟體執行、可以部分地在單個設備上並且部分地在另一設備上執行、或完全地在其他設備上執行。在一些情況下,可以通過任何類型的連接或網路(包括局域網(LAN)或廣域網路(WAN))來連接設備,或者可以通過其他設備(例如,通過使用網際網路服務提供商的網際網路)、通過無線連接(例如近場通信)、或者通過硬線連接(如通過USB連接)來進行連接。
在本文中參照圖描述了示例實施方式,圖示出了根據各種示例實施方式的示例方法、設備和程式產品。應當理解,可以至少部分地通過程式指令來實現動作和功能。這些程式指令可以被提供至設備的處理器、專用資訊處理設備或其他可程式設計資料處理設備,以產生機器,使得經由設備的處理器執行的指令實現指定的功能/動作。
值得注意的是,雖然在圖中使用了特定的塊,並且已經示出了塊的特定順序,但是這些是非限制示例。由於明確示出的示例僅用於描述性目的並且不被解釋為進行限制,所以在某些情況下,可以根據需要將兩個或更多個塊進行組合,可以將一個塊分成兩個或更多個塊,或者對某些塊進行重新排序或者重新組織。
如本文中所使用的,除非以其他方式清楚地指出,否則可以將單數”一個(a)”與”一(an)”解釋為包括複數”一個或多個”。
本公開內容是出於說明和描述的目的而被給出,而並不意圖窮舉或限制。對本領域的普通技術人員而言,許多修改和變化將是顯而易見的。選擇並且描述示例實施方式以解釋原理和實際應用,並且使得本領域其他普通技術人員能夠理解具有各種變型的各種實施方式的公開內容適合於所設想的特定用途。
因此,儘管在本文中已經參照附圖對示意性示例實施方式進行了描述,但是應當理解的是,該描述並不是限制性的,並且其中,在不偏離本公開內容的範圍或精神的情況下,本領域的技術人員可以實現各種其他改變和修改。
100‧‧‧電路系統
110‧‧‧晶片
120‧‧‧週邊設備
130‧‧‧電力管理晶片
140‧‧‧充電電池
150‧‧‧WWAN收發器
160‧‧‧WLAN收發器
170‧‧‧觸控式螢幕
180‧‧‧快閃記憶體
190‧‧‧SDRAM
210‧‧‧晶片組
220‧‧‧記憶體控制器組
222‧‧‧處理器
224‧‧‧匯流排(FSB)
226‧‧‧記憶體控制器集線器
232‧‧‧介面
234‧‧‧介面(PCI-E)
236‧‧‧獨立顯卡
238‧‧‧塊
240‧‧‧記憶體
242‧‧‧介面(DMI)
244‧‧‧鏈路控制器
250‧‧‧I/O控制器集線器
251‧‧‧SATA介面
252‧‧‧PCI-E介面
253‧‧‧USB介面
254‧‧‧網路介面
255‧‧‧GPIO介面
261‧‧‧電力管理介面
262‧‧‧時鐘發生器介面
263‧‧‧音訊介面
264‧‧‧TCO介面
265‧‧‧系統管理匯流排界面
266‧‧‧SPI快閃記憶體
268‧‧‧BIOS
270‧‧‧LPC介面
271‧‧‧ASIC
272‧‧‧TPM
273‧‧‧超級I/O
274‧‧‧固件集線器
275‧‧‧BIOS支援
276‧‧‧記憶體
277‧‧‧ROM
278‧‧‧快閃記憶體
279‧‧‧NVRAM
282‧‧‧無線連接
284‧‧‧設備
290‧‧‧啟動代碼
292‧‧‧裝置
294‧‧‧揚聲器
301~305‧‧‧步驟
圖1示出了資訊處理設備電路系統的示例;
圖2示出了資訊處理設備電路系統的另一示例;以及
圖3示出了欄位條目的音訊輸入的示例方法。
Claims (10)
- 一種資訊處理方法,包括:使用處理器訪問包括至少一個可填充欄位的表單;從聲音輸入裝置接收來自用戶的音訊輸入;使用處理器對所述音訊輸入進行解析,從表單中識別至少一個與所述音訊輸入相關聯的可填充欄位;以及基於所述音訊輸入向至少一個與所述音訊輸入相關聯的所述可填充欄位提供輸入。
- 如請求項1所述的資訊處理方法,還包括將所述音訊輸入與所述至少一個可填充欄位進行比較。
- 如請求項2所述的資訊處理方法,其中,所述識別包括基於與所述音訊輸入具有相似性的可填充欄位來識別所述可填充欄位。
- 如請求項1所述的資訊處理方法,其中,所述提供輸入包括向所述可填充欄位提供所述音訊輸入的至少一部分。
- 如請求項1所述的資訊處理方法,其中,所述音訊輸入包括欄位識別字,並且其中,所述提供包括向與所述欄位識別字相關聯的可填充欄位提供輸入。
- 如請求項1所述的資訊處理方法,還包括訪問與所述音訊輸入相關聯的上下文資料。
- 如請求項6所述的資訊處理方法,其中,所述識別包括基於所述上下文資料來識別所述可填充欄位。
- 如請求項1所述的資訊處理方法,還包括訪問所述表單的原始程式碼,並且其中,所述識別包括基於所述原始程式碼來識別所述可填充欄位。
- 如請求項1所述的資訊處理方法,其中,所述提供輸入包括向所述可填充欄位提供機器文本。
- 一種資訊處理設備,包括:聲音輸入裝置;處理器,所述處理器操作上耦接至所述聲音輸入裝置;存放裝置,所述存放裝置存儲有指令,所述指令能夠被所述處理器執行以:訪問包括至少一個可填充欄位的表單;從所述聲音輸入裝置接收來自用戶的音訊輸入;對所述音訊輸入進行解析,從表單中識別至少一個與所述音訊輸入相關聯的可填充欄位;以及基於所述音訊輸入向至少一個與所述音訊輸入相關聯的所述可填充欄位提供輸入。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/933,796 US9996517B2 (en) | 2015-11-05 | 2015-11-05 | Audio input of field entries |
US14/933,796 | 2015-11-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201716987A TW201716987A (zh) | 2017-05-16 |
TWI668629B true TWI668629B (zh) | 2019-08-11 |
Family
ID=57286232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105130238A TWI668629B (zh) | 2015-11-05 | 2016-09-19 | 欄位條目的音訊輸入技術 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9996517B2 (zh) |
EP (1) | EP3166012A1 (zh) |
KR (1) | KR20170053127A (zh) |
CN (1) | CN107066226A (zh) |
DE (1) | DE102016120744A1 (zh) |
GB (1) | GB2545320B (zh) |
TW (1) | TWI668629B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10657200B2 (en) | 2016-01-05 | 2020-05-19 | Adobe Inc. | Proactive form guidance for interacting with electronic forms |
US10460024B2 (en) * | 2016-01-05 | 2019-10-29 | Adobe Inc. | Interactive electronic form workflow assistant that guides interactions with electronic forms in a conversational manner |
CN109656510B (zh) * | 2017-10-11 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种网页中语音输入的方法及终端 |
CN109840318B (zh) * | 2019-01-04 | 2023-12-01 | 上海上湖信息技术有限公司 | 一种表单项的填写方法及系统 |
US11594218B2 (en) * | 2020-09-18 | 2023-02-28 | Servicenow, Inc. | Enabling speech interactions on web-based user interfaces |
CN113380234B (zh) * | 2021-08-12 | 2021-12-17 | 明品云(北京)数据科技有限公司 | 基于语音识别生成表单的方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1122636A2 (en) * | 2000-02-03 | 2001-08-08 | Siemens Corporate Research, Inc. | System and method for analysis, description and voice-driven interactive input to html forms |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
US8255218B1 (en) * | 2011-09-26 | 2012-08-28 | Google Inc. | Directing dictation into input fields |
US20120323574A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Speech to text medical forms |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7406657B1 (en) | 2000-09-22 | 2008-07-29 | International Business Machines Corporation | Audible presentation and verbal interaction of HTML-like form constructs |
US6834264B2 (en) | 2001-03-29 | 2004-12-21 | Provox Technologies Corporation | Method and apparatus for voice dictation and document production |
US6996528B2 (en) * | 2001-08-03 | 2006-02-07 | Matsushita Electric Industrial Co., Ltd. | Method for efficient, safe and reliable data entry by voice under adverse conditions |
US6882974B2 (en) * | 2002-02-15 | 2005-04-19 | Sap Aktiengesellschaft | Voice-control for a user interface |
WO2004072846A2 (en) | 2003-02-13 | 2004-08-26 | Koninklijke Philips Electronics N.V. | Automatic processing of templates with speech recognition |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US7389236B2 (en) | 2003-09-29 | 2008-06-17 | Sap Aktiengesellschaft | Navigation and data entry for open interaction elements |
US7870000B2 (en) * | 2007-03-28 | 2011-01-11 | Nuance Communications, Inc. | Partially filling mixed-initiative forms from utterances having sub-threshold confidence scores based upon word-level confidence data |
US9047869B2 (en) | 2008-04-07 | 2015-06-02 | Nuance Communications, Inc. | Free form input field support for automated voice enablement of a web page |
JP5754177B2 (ja) | 2011-03-03 | 2015-07-29 | 日本電気株式会社 | 音声認識装置、音声認識システム、音声認識方法及びプログラム |
US8909536B2 (en) * | 2012-04-20 | 2014-12-09 | Nuance Communications, Inc. | Methods and systems for speech-enabling a human-to-machine interface |
US9406089B2 (en) * | 2013-04-30 | 2016-08-02 | Intuit Inc. | Video-voice preparation of electronic tax return |
US20150149354A1 (en) | 2013-11-27 | 2015-05-28 | Bank Of America Corporation | Real-Time Data Recognition and User Interface Field Updating During Voice Entry |
-
2015
- 2015-11-05 US US14/933,796 patent/US9996517B2/en active Active
-
2016
- 2016-09-19 TW TW105130238A patent/TWI668629B/zh active
- 2016-09-19 CN CN201610832190.2A patent/CN107066226A/zh active Pending
- 2016-10-27 EP EP16195998.6A patent/EP3166012A1/en not_active Ceased
- 2016-10-31 GB GB1618332.9A patent/GB2545320B/en active Active
- 2016-10-31 DE DE102016120744.6A patent/DE102016120744A1/de active Pending
- 2016-11-03 KR KR1020160145904A patent/KR20170053127A/ko not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1122636A2 (en) * | 2000-02-03 | 2001-08-08 | Siemens Corporate Research, Inc. | System and method for analysis, description and voice-driven interactive input to html forms |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
US20120323574A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Speech to text medical forms |
US8255218B1 (en) * | 2011-09-26 | 2012-08-28 | Google Inc. | Directing dictation into input fields |
Also Published As
Publication number | Publication date |
---|---|
DE102016120744A1 (de) | 2017-05-11 |
KR20170053127A (ko) | 2017-05-15 |
GB2545320B (en) | 2020-08-05 |
US9996517B2 (en) | 2018-06-12 |
TW201716987A (zh) | 2017-05-16 |
GB201618332D0 (en) | 2016-12-14 |
EP3166012A1 (en) | 2017-05-10 |
CN107066226A (zh) | 2017-08-18 |
US20170132191A1 (en) | 2017-05-11 |
GB2545320A (en) | 2017-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI668629B (zh) | 欄位條目的音訊輸入技術 | |
US11138971B2 (en) | Using context to interpret natural language speech recognition commands | |
US10796693B2 (en) | Modifying input based on determined characteristics | |
US11386886B2 (en) | Adjusting speech recognition using contextual information | |
US10770060B2 (en) | Adaptively learning vocabulary for completing speech recognition commands | |
US20150310861A1 (en) | Processing natural language user inputs using context data | |
US9524428B2 (en) | Automated handwriting input for entry fields | |
US20150149163A1 (en) | Voice input correction | |
US10649635B2 (en) | Multi-modal fusion engine | |
CN107643909B (zh) | 用于协调多个本地设备上的输入的方法和电子设备 | |
US20160110327A1 (en) | Text correction based on context | |
CN108073275B (zh) | 信息处理方法、信息处理设备及程序产品 | |
US20170031897A1 (en) | Modification of input based on language content background | |
US10896287B2 (en) | Identifying and modifying specific user input | |
US20210005189A1 (en) | Digital assistant device command performance based on category | |
US11373634B2 (en) | Electronic device for recognizing abbreviated content name and control method thereof | |
US11423893B2 (en) | Response to secondary inputs at a digital personal assistant | |
US10510350B2 (en) | Increasing activation cue uniqueness | |
US20170116174A1 (en) | Electronic word identification techniques based on input context | |
US20190050391A1 (en) | Text suggestion based on user context | |
US20150205518A1 (en) | Contextual data for note taking applications | |
US11048931B2 (en) | Recognition based handwriting input conversion | |
US20180364809A1 (en) | Perform function during interactive session | |
US20180343233A1 (en) | Contextual name association | |
US9606973B2 (en) | Input correction enhancement |