TW442772B - Voice control input for portable capture devices - Google Patents

Voice control input for portable capture devices Download PDF

Info

Publication number
TW442772B
TW442772B TW088115990A TW88115990A TW442772B TW 442772 B TW442772 B TW 442772B TW 088115990 A TW088115990 A TW 088115990A TW 88115990 A TW88115990 A TW 88115990A TW 442772 B TW442772 B TW 442772B
Authority
TW
Taiwan
Prior art keywords
recording device
voice
command
recognition
analog
Prior art date
Application number
TW088115990A
Other languages
English (en)
Inventor
Thomas C Oliver
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Application granted granted Critical
Publication of TW442772B publication Critical patent/TW442772B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42204Arrangements at the exchange for service or number selection by voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • H04N1/32122Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file in a separate device, e.g. in a memory or on a display separate from image data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32128Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title attached to the image data, e.g. file header, transmitted message header, information on the same page or in the same computer file as the image
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0081Image reader
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3222Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of processing required or performed, e.g. forwarding, urgent or confidential handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3264Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3274Storage or retrieval of prestored additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3278Transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Studio Devices (AREA)
  • Facsimiles In General (AREA)

Description

五、發明說明( A7 B7 經濟部智慧財產局員工消f合作社印製 相關申請案之交又來考 本申請案係湯瑪斯C.歐利佛在1998年2月19日申請的 名為用於可攜式掃瞄器應用的經择瞄影像之語音註解的申 請案第09/026,082號之一部分繼續案,藉其合併參考。 技術領域 本發明係關於如手持式文件掃瞄器或數位照相機的可 攜式拍錄裝置;更特別地,本發明關於可撝式手握文件掃 瞄器或數位照相機的語音控制輸入。 發明背景 如手持式文件掃瞄器或數位照相機的可攜式拍錄裝 置經証明在某些場合非常有用;它們的可攜性和易於拍錄 和儲存來自遠離一使用者之辦公室或工作場所的不同地點 之資訊為如此拍錄裝置之主要優點。 雖然如此可攜式拍錄裝置是小的,將它們的尺寸減 少到更小和更可攜帶是期望的;然而,在尺寸上的進_步 減少受到目前實艘使用者的介面需要所限制:多數可播式 手握文件掃瞄器例如具有一個從十到十五個使用者輸入按 鈕來允許使用者控制多數不同操作;如此操作包括:起動 和阻停掃瞄、儲存和刪除經掃瞄資訊、送出經掃瞄資訊, 並鞔看、縮放、和調位在掃瞄器顯示器上的經掃瞄資料; 按鈕必須足夠大且適度間隔以允許一使用者易於控制和按 壓按鈕;按鈕也必須以如可攜式掃瞄器裝置可被使用者操 控不致按麼按紐在拍錄裝置之正常運輸和操控中並在使用 可撝式掃瞄器裝置來掃瞄一文件時引起不意圖致動的各種 本紙張尺度適用中圃國家標準(CNS)A4規格(210* 297公爱) 請 先 Μ 讀 之 注 項 再 填 % 本 頁 衣 I I I I I訂 4 A7 A7 經濟部智慧財產局貝工消t合作社印製 五、發明說明(2) 功能的一樣式來安置;有時必須組合地使用按鈕,使掃瞄 器裝置有些難以使用;由於被使用者輸入按鈕占有的實際 空間,在如此拍錄裝置上的輸出顯示器經常需要十分小, 使顯示器之使用比期望的較差功能;同樣可說於可攜式數 位照相機。 因此明顯的,在技術上需要將減少為操作可攜式拍 錄裝置所需的使用者輸入按鈕之數目和同時減少使用者介 面之複雜度的一經改良方法或裝置:在技術上也需要進一 步減少可攜式拍錄裝置之尺寸以更增加它們的可攜性和使 用易度;在技術上的進一步需要係利用在可攜式拍錄裝置 中的一較大、更可讀的顯示器而維持可攜式抬錄裝置的一 經縮減整體尺寸;本發明符合技術上的這些和其他需要。 本發明之椙霪 本發明之一層面係利用使用者之語音輸入來控制如 一手持式文件掃瞄器或數位照相機的一可攜式拍錄裝置之 操作1^ 本發明之另一層面係減少在一可攜式拍錄裝置上的 使用者輪入按鈕之數目。 本發明之又一層面係透過多數使用者輸入按鈕的消 除來減少一可攜式拍錄裝置之整體尺寸。 本發明之再一層面係增加一可撝式拍錄裝置之輸出 顯不器面積同時藉利用一些先前被已消除的多數使用者輸 入按鈕占據的實體空間來減少可攜式拍錄裝置之整體尺寸 I I*裝! —訂!----*線 ί靖先閱讀背面之注意事項再填骂本頁) A7 442772 B7 ____ 五、發明說明(3 ) 本發明之一進一步層面係將_可攜式拍錄裝置之操 作鍵配至被一使用者說出的一可聽的密碼。 本發明之再一進一步層面係將一可攜式拍錄裝置鍵 栓至一主電腦以訓練可攜式拍錄裝置來辨認一使用者之語 音控制輸入命令。 在另一實施例中本發明之又一進一步層面係利用在 不需要被一主電腦訓練的一可攜式拍錄裝置中的一有限語 音控制輸入命令β 本發明之上述和其他層面在接收語音控制輸入命令 來控制它的操作的一可攜式拍錄裝置中完成;為了如以一 可攜式手握文件掃瞄器做一掃瞄地以一可揭式拍錄裝置起 始一行動,使用者將拍錄裝置開機且然後輸入語音控制輸 入命令’’掃瞄”,其被拍錄裝置透過位在拍錄裝置中的一語 音拾取組件被拾取;在辨認命令”掃瞄,,時,拍錄裝置將等 待通常為數秒的一預定量之時間讓使用者能將拍錄裝置定 位在一文件上;在時間延遲後,拍錄裝置備妥來掃瞄,其 被一可聽的嗶音或字元’’掃瞄’’之可聽重覆來指示給使用者 ;使用者然後移動可攜式手握文件掃瞄器橫過文件之表面 ;在測知沒有移動有一預定期間之時間時,可撝式手握文 件掃瞄器將再次嗶聲或輸出如”做妥”或”停止”的另一可聽 字元來指示使用者拍錄裝置相信它應該不再處在掃瞄模式 上;如果拍錄裝置測知在從嗶聲或可聽的字元輸出的通常 為數秒之一預定量的時間内沒有進一步移動時,可攜式手 握文件掃瞄器離開掃瞄模式並開始處理掃瞄資料在可攜式 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 X 297公爱) {請先Μ讀背面之沒意事項再填寫本頁) 衣—— ill 訂· ---— ! "SI· 經濟部智慧財產局貝工消费合作社印製 A7 A7 五、 經濟部智慧財產局員工消费合作社印製 發明說明(4) 手握文件掃1¾器顯示器上來輸出給使用者;在本發明之一 :換實施财,使用者㈣在可播式手握文件椅睡器上的 一按知來阻停掃_式;可揭式手握文件掃瞎H然後處理 掃鞋資料來輸出給使用者。 一旦影像輸出至顯示器,使用者可發出—語音控制 輸入命令以”健存”或”刪除”經掃瞄影像;使用者也可藉發 出如”缩人”、”放大”、”左,,、”右”、”上,,'或”下”的語音 控制輪入命令來觀看影像之不同部分;使用者也可藉發出 如送出或送出全部”的語音控制輸入命令將一經掃瞄 影像、或數個影像透過一已建立連接傳送到一主電腦:_ 旦拍錄裝置認出命令,它實施經期望操作;如果拍錄裝置 處理一語音控制輸入命令並找不到匹配,則如一可聽字元 或一嗶音圖形的一不匹配指示輪出給使用者;抬錄裝置然 後等待接收次一語音控制輸入命令。 語音控制輸入允許一裝置使拍錄裝置透過一語音密 妈之使用而鍵配給一特殊使用者;一里將拍錄裝置開機’ 它將不動作直到收到並處理正確密碼為止;只要沒聽到使 用者之密碼此將防止除使用者外的任何人使用拍錄裝置。 在本發明之一實施例令如一可攜式手握文件掃瞄器 的一可撝式拍錄裝置被訓練透過語音分析軟體來辨認使用 者說出之語音控制輸入命令;語音分析軟趙可設在拍錄裝 置内、或在一主電腦中並在鍵检至主電腦系統時被拍錄裝 置取用:在本發明之較佳實施例中,使用鏈拴模式來取得 在主電腦系統中可獲的較大運算能力之利益並減少拍錄裝 本紙張又度適用中國國家標靠(CNS)A4規格·(210 x 297公爱) ^---------------線 <«-先閱讀背面之注意事項再填寫本頁) 442772 A7 B7 經濟部智慧財產扃員工消f合作社印製 五、發明說明(5) 置之複雜度》 例如’在訓練模式中使用語音分析軟體上,將給予 使用者可用一語音控制輸入命令被拍錄裝置執行的一預定 功能表;例如命令一可代表用來實施一文件或影像之一掃 瞄功能的一組指令;在選擇用來訓練和分析的命令一中, 使用者將被語音分析軟體提示以選取使用者要用來招喚用 於掃晓功能的一組指令之一字元:使用者將然後被提示來 重覆經選取字元多次;一邏輯選擇將是選取字元”掃瞄” ’但可使用被使用者選取的任一字元;字元”掃瞄”之每一 重覆被拍錄裝置拾取並被語音分析軟體分析以發展一辨認 圊形在發出”掃睡”命令中來包含在使用者的語音中的變化 和變音;用於被使用者招喚各種功能所選的所有字元之辨 認圖形被儲存在拍錄裝置的_靜態記憶體令之一命令辨認 表中;在命令辨認表中的辨認圖形各連繫至作各種功能並 也储存在靜態記憶體中的預定組之指令;因此,當講說語 音控制輸入命令字元被拍錄裝置接收並辨認時,與該命令 字元連*潔指令組被執行;此實施例係獨立於語言,使得 外國語言可被利用作為語音控制輸入命令字元,因為對於 一功能的指令組關連至使用者之字元選擇及該字元選擇之 後續訓練和語音分析。 在本發明之另一實施例中’沒有字元選擇給予使用 者作訓練和語音分析;在命令辨認表中的辨認固形被預定 .並關連於使用者必須使用的特定字元;使用者將必須修正 他或她的例如命令字元”掃瞄”之發音直到拍錄裝置辨認被 本紙張尺度適用t國困家標準(CNS)A4規格(210 x 297公釐) n 1 i n n n I n-*T-®J· I IV ϋ n A— t <請先閲讀背面之注意事項再填篇本買) 經濟部智慧財產局員工消费合作社印製 A: —--------B7____ 五、發明說明(6 ) 使用者况出的命令為止;因此在此實施例中,裝置將主要 指向命令字元指示結果行動的一特殊語言;可做裝置之外 國語言樣式供使用者利用指示结果行動的外國字元。 可攜式拍錄裝置具有在一控制器之控制下的—語音 聲音輸入/輸出系統:在收到—語音控制輸入命令時,控 制器將經數位化之語音輪入存在動態記憶體中;控制器然 後處理命令並將用於命令的辨認圖形與儲存在保持在靜態 記憶體中的命令辨認圖形中的辨認囷形作比較;當發現一 匹配時’關連於辨認圖形的指令組之執行開始;用於一特 殊命令之指令组可包括藉輸出一可聽嗶音來認知返回使用 者的命令、命令名稱之可聽驰返、或使一發光二極體(LED) 發光;特殊命令也可具有建入指令組的一或多個時間延遲 以提供使用者時間來實際操作拍錄裝置或取消命令;如果 使用者已改變心意關於剛發出的命令,或如果拍錄裝置不 正確地解析命令’則使用者在它被執行前可透過在拍錄裝 置上的一取消或清除按鈕或透過取消收到的先前命令的一 語音控制輸入命令來取消命令;否則,如果收不到輸入來 取消命令,用於命令的指令組被執行。 對於允許如用一數位照相機的經拍錄影像資料檔案 、或如用一可攜式掃瞄器的文件資料檔案之語音註記的可 攜式拍錄裝t,拍錄裝置從一語音註記區分一語音控制輸 入命令;在本發明之一實施例中,使用一語音控制輸入註 記命令使拍錄裝置準備接受緊隨於後的語音輸入作為對目 前影像資料檔案或文件資料擋案的一語音註記:沒有語音 本紙張弋ΐ適用屯國國家襟準iG\,S)A·!規格(210 X 297 ) ____________—裝--------訂*--------線 (請先閱讀背面之注意事項再填寫本頁) at _ Β7 五、發明說明(7 ) (請先閲讀背面之注意事項再填寫本頁) 輸入的一預定長度之靜默時間用作完成語音註記的指示; 在本發明之另—實施例中,利用與在一錄音機上的錄音按 鈕相似的一使用範例;在拍錄裝置上的—按鈕被按壓並保 持以表明後續語音輸入是用於註記,而非一命令;一旦完 成語音註記,使用者釋放按鈕,且經拍錄語音註記被拍錄 裝置處理並連接至目前影像資料檔案或文件資料擋案。 圖式之描述 藉由閱讀與下列囷式結合提出的本發明之下列更特 別說明將較能除解本發明之上述和其他層面、特點、和優 點,其中: 第1圖顯示本發明之一拍錄裝置的_方洗圖; 第2圖顯示與本發明之拍錄裝置連通的一主電腦系統 之一方塊圖; 第3圖顯示用於本發明之拍錄裝置之操作的語音控制 *輪入之整個流程的一流程圖; 第4圖顯示使用本發明之拍錄裝置來處理一語音控制 輸入命令的一流程圖; 經濟部智慧財產局員工消费合作社印製 第5圖顯示用於使用本發明之拍錄裝置來執行一命令 的一個一般化流程圖;及 第6圖顯示訓練本發明之拍錄裝置來辨認語音控制輸 入命令的一流程圖。 用來實施本發明之最佳模式 下列說明係實施本發明之最佳目前思考的模式;此 說明並非以一限制感覺來看待而只是用來說明本發明之一 10 本纸張尺度適用中國圉家標準(CNS)A4規格(210 X 297公爱) 經濟部智慧財產局員工消费合作杜印製
AT B7__ 五、發明說明(8 ) 般原理;本發明之範疇係由參考所附申請專利範圍來決定 第1圖顯示本發明之一拍錄裝置的一方塊圖;現在請 參考第1圖,拍錄裝置100藉按壓係在拍錄裝置lOOj啲數 個控制按鈕中之一的一開機按鈕120來起動;拍錄裝置1〇〇 從内部電池(在第1圖中未顯示)或替換地透過連接至拍錄 裝置100並插入一電源的一電力纜線(在第丨圖中也未顯示) 來接收其電力;用來控制拍錄裝置100的語音控制輸入命 令被充分靠近要被語音拾取組件102拾取的一使用者話語 來供給;語音拾取组件102將使用者的話語轉換成一類比 "is號,連接至5吾音拾取組件102的是將被語音拾取組件1〇2 產生的類比信號轉換成一數位信號的一類比至數位轉換器 1 04 ;數位信號被類比至數位轉換器1 〇4送到將信號錯存在 連接至控制器106的動態記憶體118中的控制器丨〇6 ;然後 ’在本發明之較佳實施例中,控制器Hj6呼叫储存在靜,能 記憶體116中的語音分析軟體120來實施在儲存在動態記憶 體11 8中的數位信號上之一系列之頻率領域轉換;語音分 析軟體120產生為一頻譜轉換的一辨認圖形,將其與儲存 在靜態記憶體116中在命令辨認表122中的命令之辨認園形 (也為頻譜轉換)作比較;一個熟<知該技術者將認知到在本 發明中可使用任何用來辨認語音®形之其他合適方法來取 Λ 代頻譜轉換。 如果有一匹配’則控制器103取用在與用於命令的辨 認圖形連結的命令辨認表12 2中的指令組;例如,在說+ 本紙張適用中國國家標準(CNS)A4現格(210 * 297 I I I I I I--t ! ! I I · I I I I [ t I · I I I---III (請先鬩讀背面之;i意事項再填寫本頁) -Η 經3暫慧財產局員工消费合作社印製 442772 A7 _ B7 五、發明說明(9 ) 一語音控制輸入命令來掃瞄一文件後,使用者移動拍錄裝 置100使得影像拾取組件112與文件之一部分或所有表面接 觸;影像拾取組件112從文件之表面光學地讀取樣本點並 對每個取樣點產生一灰度值;控制器106接收對於樣本點 之灰度值並將它們組成一影像陣列;結果可輸出至連接至 控制器106顯示經掃瞄文件之表面的視覺表示之顯示器114 ;控制器106也可將灰度值轉換成二進位形式供顯示或供 键存;在灰度或二進位形式中的影像陣列從控制器1〇6傳 交並儲存在靜態記憶體116中作為一文件資料檔案。 在掃瞄一文件後,使用者可說入語音拾取組件丨〇2以 用一描述敘事或被使用者認為有用的資訊來語音註記文件 資料播案’為了區別為跨越一經延長時間期間的語音輸入 之一十分連續串流的語音輸入之一語音註記與正常只是一 或兩字元的一語音控制輸入命令,在本發明之一實施例中 ,在說出前使用者按壓並保持數個控制按鈕120中之一, 將按鈕壓下輸入送到控制器106,指示後續語音輸入之奉 流係一註記而非一命令;在使用者完成語音註記後,使用 者釋故控制按鈕120,將按“回復輸入送到控制器1〇6,標 示語音輪入之_流之終了;經拍錄的語音輸入之串流被儲 存在靜態記憶體116中作為一語音註記檔案,並連接至已 經掃瞄和儲存在靜態記憶體116中的一文件資料擋案。 在本發明之另一實施例中,語音控制輸入命令中之 一係一語音註記命令;在發出語音控制輸入註記命令後, 語音輸入之下列串流被拍錄供註記用,並儲存作為_語音 本纸張尺度適用中國國家標準(CNS)A4現格(210 X 297公* ) 1 I — ' 衣-----11— 訂---------線. {請先閱讀背面之江意事項再填寫本I) 12 經濟部智慧財產局員工消费合作社印製 A: B7 五、發明說明(10 ) 註記樓案’且連接至已經拍錄並儲存在拍錄裝置_的一影 像資料棺案或文件資料檔案;當使用者停止說話超過如五 至十秒間的一預定時間期間時,裝置將如此語音.輸入之不 出現的預定期間解釋為標示語音輸入之串流的終了。 在收到並辨5¾ 3吾音控制輸入註記命令或按壓並保持 數個控制按紐120中之一來指示後續語音輸入係供註記用 時’來自使用者之語音輸入被語音拾取組件1 〇2戴斷並轉 換成一類比信號;類比至數位轉換器i〇4將被語音拾取組 件102產生的類比信號轉換成一數位信號;數位信號被送 到控制器106 ;控制器〗〇6將語音註記數位信號儲存在靜態 記憶體110中作為一分開語音註記檔案並將影像資料檔案 或文件資料檔案與語音註記檔案連接。 使用者可要求文件掃瞄裝置1 〇〇取回一語音註記檔案 ;控制器106從靜態記憶趙116取回經要求的語音註記標案 ’並將類比信號傳送到產生音訊輸出的擴音器110;另外 ’用於一命令的一特殊指令組可將可聽輸出送到使用者藉 由利用數位至類比轉換器108和擴音器11 〇、或使一個LED ( 在第1圖中未顯示)來認知命令之接收。 影像資料擋案或文件資料檔案及經連接的語音註記 擋案可透過連接至控制器106的主連接器被複製到如主電 腦系統200(第2圖)的另一裝置。 第2圖顯示與本發明之拍錄裝置連合的一主電腦系統 之一方塊圖:現在請參考第2圖,主電腦系統200含有一處 理元件202 :處理元件202跨越一系統匯流排204連通至主 本纸張尺度適用*國國家標準(CNS)A4規格(210 * 29了公·« ) ------I----- -裝 ----訂--I I----線 (請先Mit背面之;it事項再填寫本頁) 442772 A7 ____B7 五、發明說明(11 ) 電腦系統200之其他元件;一鍵盤2〇6允許一使用者將資訊 輸入主電腦系統200且一繪圖顯示器21〇允許主電腦系統 200將資訊輸出給使用者;一滑鼠2〇8也用來輸入資訊,而 一儲存裝置212用來儲存在主電腦200内的資料和程式;也 連接至系統匯流排204的通信介面214接收來自拍錄裝置 100(第1圖)的資訊;連接至系統匯流排204的擴音器/語音 卡216將音訊資訊輸出給使用者:一些主電腦系統可不具 有一語音卡’在此情形中擴音器只被軟體騍動;也附於系 統匯流排204的一記憶體218含有一操作系統220、檔案轉 換軟體222、語音分析軟體224、使用者介面程式226、及 音訊檔案轉換軟體228。 經濟部智慧財產局貝工消费合作社印製 <請先閲璜背面之注意»項再填寫本頁> 樓案轉換軟艘222透過通信介面214和系統匿流排204 接收從拍錄裝置100之主連接器122(第1圖)轉換的影像資 料樓案或文件資料禮案和經連接的語音註記檔案,並把它 們儲存至儲存裝置212;當使用者取用使用者介面程式226 並選取具有一語音註記檔案的一影像資料檔案或文件資料 檔案時’音訊檔案轉換軟體228將語音註記檔案解壓縮並 轉換成可被擴音器/語音卡216辨認的一音訊檔案格式;擴 音器/語音卡216把音訊資訊輸出給使用者;在聽到音訊資 訊後,使用者可選擇來觀看影像資料擋案或文件資料擋案 :如果如此,則懸置使用者介面程式226、呼叫與影像資 料檔案或文件資料擋案關連的應用程式、且把檔案顯示在 繪圖顯示器210上。 在本發明之較佳語言獨立實施例中,也位在拍錄裝 本紙張尺度適用中國圉家標準(CNS)A4規格(210 X 297公* ) 14 A7 B7 經濟部智慧財產局員Η消t合作社印製 五、發明說明(12 ) 置100中的語音分析軟體224被一使用者使用來訓練拍錄裝 置以辨認在任一語言上的使用者之語音控制輸入命令;拍 錄裝置100首先連接至主電腦系統2〇〇來利用較大的運算能 力;使用者然後取用語音分析款體224並選取一特殊功能 要被使用者選取來唉出功能的—字元所代表,來訓練, 如掃猫功能;使用者然後重覆被使用者選取來代表掃瞄功 能的字元多次;最似乎被使用者選取的字元係,不管使用 者說的是甚麼語言’等於或最接近掃醛功能的一字元;對 於一說英語的使用者》最似乎選取的字元將是字元,,掃瞄,, ,使用者對字元”掃瞄”之重覆被語音拾取組件1〇2(第丨圖) 拍錄,在拍錄裝置100中處理成一信號,並經由主連接器122 傳送到通信介面214 ;通信介面214經由系統匯流排204把 各個信號傳送到記憶體2 1 8,在其中語音分析軟體224分析 各個信號;語音分析軟體224根據各個信號來發展一辨認 圖形來包含在發出_’掃睹”命令的使用者之語音中的變化和 變調;對於可用拍錄裝置1〇〇之—語音輸入控制命令來喚 起的各個功能重覆此處理;為選來訓練的所有字元而建立 的辨認圖形然後從主電腦系統2〇〇下載到拍錄裝置1〇〇,並 健存在靜態記憶體11 6(第1圖)中的命令辨認表丨26中供用 在後續控制操作中。 第3圖顯示用於一拍錄裝置之語音控制輸入的操作之 整個流程的一流裎圖;現在請參考第3圖,在步驟3〇〇中將 拍錄裝置100(第1圖)開機:在步驟3 〇2中在本發明之較佳 實施例中將是密碼的一第一被語音拾取組件丨〇2(第丨圖) (CNS)A4 (210 x 297 f -------------裝--------訂· I ---1---線 (請先Μ讀背面之沒意事項再填寫本頁} 15 經濟部智慧財產局員工消费合作社印製 442 772 A7 B7 五、發明說明(13 ) 收;步驟304呼叫第4圊來處理語音控制輸入命令;從第4 圖回來時’步驟306判定在從第4圖的步驟408中實施的在 步驟302中接收之語音控制輸入命令之辨認圊形和儲存在 命令辨認表126中的辨認圓形之任一個間的比較上是否發 現一匹配;如果發現沒有匹配,步驟3 10把沒有匹配的可 為一可聽字元或一特定嗶音圖形的一指示輸出給使用者; 控制然後回到拍錄裝置1 〇 〇等待次一語音控制輸入命令的 步驟302 » 如果步騍306判定在第4圖的步驟中發現_匹配, 則控制傳到呼叫第5圖來執行與命令關連的指令組之步驟 308 ;從第5圖返回時’步驟312判定是否收到次—語音控 制輸入命令’或是關機了;如果收到次一命令,則控制回 到步驟302 ;如果關機了,則拍錄裝置1〇〇之操作終止。 第4圖顯示使用本發明之拍錄裝置來處理一語音控制 輸入命令的一流程圊:現在請參考第4圖,在步驟400中被 邊音拾取組件1 〇2(第1圊)拍錄的語音控制輸入命令被語音 拾取組件102輸出作為一類比信號;在步驟4〇2中類比至數 位轉換器104(第1圖)接收為輸入的類比信號,把類比信號 轉換成一數位信號,並把數位信號輸出到控制器1〇6(第1 圖);在步驟404中,控制器106接收為輸入的數位信號並 把數位信號儲存在動態記億體118(第1圖)中;在步騍4〇6 中’控制器106呼叫語音分析軟體12〇來在步驟4〇4中儲存 的數位信號上實施頻率領域轉換,產生一辨認圖形;在步 称408中’控制器1〇6將來自步驟4〇6的辨認圖形與用於儲 (請先闉讀背面之注意事項再填寫本頁} -¾ * ------訂------1 — ·線
經濟部智慧財產局員工消费合作社印製 A7 B7 五 '發明說明(14 ) 存在保持在靜態記憶體116(第1圖)中的命令辨認表丨26中 之語音控制輸入命令的辨認圖形作比較;控制然後回到第 3圖= 第5圊顯示用於使用本發明之拍錄裝置來執行一命令 的一個一般化流程圖;一個熟知該技術者將認知到步驟之 次序依賴與一特定命令關連的經期望操作而可大幅改變; 現在請參考第5圖’步驟500取用連繫於匹配在步驟3〇2中 接收的語音控制輸入命令之辨認圖形的指令組;步驟5〇2 判定指令組是否以一時間延遲指令開始;如果答案是肯定 的’則在步驟5 04中執行時間延遲指令,將在指令組中的 其餘指令之進一步執行懸置直到經過在時間延遲令特定的 %間里為止,在步驟504之時間延遲後,或如果步驟5〇2判 定沒有時間延遲指令,控制傳到步驟506 » 步驟506判定在指令組中的次一指令是否需要命令之 認知的一輸出;如果答案是肯定的,然後在步驟5 〇 8中執 行認知指令;依賴於特殊指令,可以一可聽α畢音、經收到 語音控制輪入命令之一語音驰返、點亮一個Led、或任何 其他適當裝置之形式來做認知;在步驟5〇8中執行認知指 令後’或如果步驟5 0 6判定沒有認知指令,則控制傳到步 驟 5 10。 步雜510判定在進一步執行其餘指令前在指令組中的 次一指令是否需要被使用者輸入的確認;如刪除命令的某 些命令可能需要確認作為一安全預警來幫助防止有價值資 料之不慎破壞;如果在步驟5 10中答案是肯定的,則步驟5 12 本紙張又度適用中國國家標準(CNS)A4規格(2K1 X 29了公4 ) -------------i —--I I 訂·-------- (請先M讀背面之注意事項再填寫本頁) 17 442772 A7 B7 經濟部智慧財產局貝工消費合作社印製 五、發明說明(15 ) 判定從使用者是否收到正確確認輪入;根據特殊命令,域 認可要求使用者按壓數個控制按鈕12〇中之一:或使用者 可能必須發出另一語音控制輸入命令作為確認;如果未收 到正硪確認輸入,或在步驟512中收不到任何輸入,控制 回到在第3圖中的步驟302來等待次一語音控制輸入命令: 如果在步驟512中收到正確確認輸入,或如果步驟5ι2判定 沒有確認指令,控制回到步驟5 14。 步驟514判定是否收到取消命令的輸入;如果在步驟 5 14中收到取消輸入,則控制回到在第3圖中的步驟3〇2來 等待次一洁音控制輸入命令;如果在步雜514中未收到取 消輸入’則控制傳到執行在供命令用的指令組中的其餘指 令之步驟5 16 ;在執行指令組中的最後指令時,控制回到 在第3圖中的步驟312 » 第6围顧示訓練本發明之拍錄裝置來辨認使用者的語 音控制輸入命令的一流程圖;現在請參考第6圊,在步驟6〇〇 中語音分析軟艘224載入在主電腦系統200(第2圓)中的記 憶體218 ;在步驟602將拍錄裝置100開機;在步驟604中拍 錄裝置100(第1围)連接至主電腦系統200 ;此可透過一電 纜、一紅外線光束 '或任何其他適合連接:在步驟606中 ,來自一使用者的輸入被收入選取用來訓練的一第一功能 和用來喚起功能的命令字元之語音分析的語音分析軟輝 224中;語音分析軟體224然後在步驟608中提示使用者可 聽地重覆使用者已選來唤起第一功能的命令字元進入拍錄 裝置100的語音拾取組件102(第1圖)許多次;在步驟610中 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公« ) 18 — — —— — — — —— —— * — — — — — — — .— — — 111 — · ^ <請先闓讀背面之注意事項再填寫本頁》 經濟部智慧財產局員工消费合作社印製 A7 B7 五、發明說明(w) ’被s吾音拾取組件10 2拍錄的命令字元之多重語音輸入被 拍錄裝置100處理成數位信號並送到在主電腦系統2〇〇中的 語音分析軟體224 ;在步驟612中的語音分析軟體224分析 在步驟610中收到的多重數位信號並發展一辨認圖形供命 令字元用,步驟612之辨認圊形在步雜614中健存在記博體 218 中。 步驟616判定使用者是否已選取用來訓練的次一功能 和用來喚起次一功能的命令字元之語音分析,或是否收到 一才曰不使用者已元成選取用來訓練和語音分析的功能;如 果在步驟616已選取次一功能,控制回到步驟6〇6 ;如果收 到一指示使用者已完成選取功能,則在步驟6丨8中語音分 析軟體224將在步雜612中決定並在步驟614中儲存的所有 辨認圖形越過在步驟602中建立的連接傳送到拍錄裝置1 〇〇 ;在步驟620中在步驟618中傳送的辨認囫形儲存在靜態記 憶體116中的命令辨認表126中,使得用於各個功能的辨認 圖形連繫至也储存在命令辨認表126中且將在收到語音控 制輸入命令時被執行的指令組,該語音控制輸入命令當處 理成一辨認圖形時與在步驟612中決定的辨認圖形_之一 匹配;在步驟620後用於拍錄裝置100的命令字元之訓練和 語音分析終止。 已因此詳述本發明之一目前較佳實施例’將被那些 熟知該技術者瞭解到’在構造和電路上的許多改變及本發 明之廣泛不同實施例和應用將自我提出而不致偏離如在申 請專利範圍中界定的本發明之範疇;在此的揭露和描述意 本紙張又度適用中國國家標準(CNS)A4規格(210 χ 297公餐) -------------裝--------訂---------線 <請先Mtl背面之注意事項再填寫本頁> 19 442772 Α7 ----- B7五、發明說明(Π ) 圖為說明性的而非在任何感覺上限制被下列中請專利範圍 之範轉界定的本發明〇 {請先Μ讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消f合作社印製 工件標號對照 100拍錄裝置 104類比至數位轉換器 108數位至類比轉換器 112影像拾取組件 116靜態記憶體 120控制按鈕 124語音分析軟體 200主電腦系統 204系統匯流排 208滑鼠 212儲存裝置 216擴音器/語音卡 220操作系統 224語音分析軟體 228音訊檔案轉換軟體300 、 302 、 304 、 306 、 308 、 406 ' 408 ' 500 ' 502 ' 504 、 516 ' 600 ' 602 ' 604 ' 606 、 102語音拾取組件 106控制器 Π〇擴音器 114顯示器 118動態記憶體 122主連接器 126命令辨認表 202處理器 206鍵盤 210繪圖顯示器 214通信介面 218記憶體 222資料傳送檔案 226使用者介面程式 310 、 312 、 400 、 402 、 404 ' 506、508、510、512、514、 608 、 610 、 612 、 614 、 616 、 618、620 步驟 本纸張尺度適用中國國家標準(CNS)A4規格(210 X 297公« ) 20

Claims (1)

  1. 442772 A8 B8 α D8 、申請專利範圓 一種语音控制輸入方法,用於一拍錄裝置(100),該方 法包含有下列步驟: (請先《讀背面之注意事項再填寫本頁W (a) 用在該拍錄裝置(〗〇〇>争的一語音拾取組件(丨〇2) 拍錄(302)—第一語音控制輸入命令; (b) 將該第一語音控制輪入命令轉換(4〇〇)成一第一 類比信號; (c) 將該第一類比信號轉換(4〇2)成一第4數位信號 (d) 將該第一數位信號轉換(406)成一第一辨認圖形 f (e) 將該第一辨認囷形與儲存在該拍錄裝置〇〇〇)中 的一靜態記憶體(116)中之一命令辨認表(126)中的至少 一辨認圖形作比較(408);及 (f)當該第一辨認围形與储存在該命令辨認表 (Π6)中的至少一辨認圖形匹配(3〇6)1,執行(308)與 該至少一辨認圖形連結的一第一指令娅。 經濟部智慧財產局具工消費合作社印製 2. 依據申請專利範圍第1項的用於一抽·錄裝置之語 音控制輸入方法,其中該拍錄裝置(100)係一掃瞄器裝 置。 3. 依據申請專利範圍第1項的用於一拍錄裝置(1 〇〇)之語 音控制輸入方法,其中該拍錄裝置(100)係一數位照相 機。 4. 依據申請專利範圍第〗項的用於一拍錄裝置(100)之語 音控制輸入方法,其中步驟(b)更包含下述步驟(bl), 本紙張尺度適用中國·家輕率(CNS ) A4规格(210X297公釐) 21 經濟部智慧財產局員工消費合作社印製 A8 B8 C8 D8 π、申請專利範圍 且步驟(C)更包含下述步驟(cl)至(C3): (bl)將該第一類比信號輸入到在該拍錄裝置(1〇〇) 中的一類比至數位轉換器(104); (cl)在該類比至數位轉換器(104)中將該第一類比 信號轉換成該第一數位信號; (c2)將該第一數位信號從該類比至數位轉換器 (104)傳送到在該拍錄裝置(100)中的一控制器(106); 以及 (c3)由該控制器(106)將該第一數位信號儲存(404) 在該拍錄裝置(100)中的一動態記憶體(118)中。 5.依據申請專利範圍第1項的用於一拍錄裝置(1〇〇)之語 音控制輸入方法,其中步驟(d)更包含步驟(dl): (dl)對儲存在該拍錄裝置(1〇〇)中的一動態記億體 (118)中的該第一數位信號賁施(406)多個頻域轉換,產 生該第一辨認圖形,其中該第一辨認圖形係該第一數 位信號之一頻譜轉換。 6_依據申請專利範圍第1項的用於_拍錄裝置(1〇〇)之語 音控制輸入方法,其中步驟(a)更包含在步驟(a)前實施 的步驟(aOa)至(aOj): (aOa)將語音分析軟體(224)載入(600)在一主電腦 系統(200)中的一記憶體(218); (aOb)將該拍錄裝置(1〇〇)連接(6〇4)至該主電腦系 統(200); (aOc)用該語音分析軟體(224)選取(606)—預定功 本紙法又度適用中國國家棵準(CNS ) A4洗格(210X297公嫠) ---------^---------tr------^ (請先《讀背面之注意事項再填寫本頁) 442772 A8 B8 C8 D8 經濟部智慧財產局员工消費合作社印製 六、申請專利範圍 能供至少一字元之訓練與語音分析用來唤起該預定功 能: (aOd)拍錄(610)在該拍錄裝置(1〇〇)之該語音拾取 組件(102)中的該至少一字元之多個語音輸入; (aOe)在該拍錄裝置(1〇〇)中把該等多個語音輸入處 理(610)成多個數位信號; (aOf)把該等多個數位信號從該拍錄裝置(1〇〇)送 (610)到該主電雎系统(200); (aOg)用該語音分析軟體(224)來分析(612)該等多 個數位信號; (aOh)用該語音分析軟體(224)從該等多個數位信號 之該分析來發展出(612)該至少一辨認圓形; (aOi)把該至少一辨認圖形儲存(614)在該主電腦系 統(200)中的該記憶體(218)中; (aOj)把在該主電腦系統(200)中的該記憶體(218)中 的該至少一辨認圖形傳送(618)到在該拍錄裝置(1〇〇>中 的該靜態記憶體(116)中的該命令辨認表(126),其中該 至少一辨認圖形被連結至儲存在該命令辨認表(126)中 的該第_指令組來實施該預定功能;及 (aOk)對於多個預定功能重覆步期i(a0c)至(aOj),其 中係從用於多個該至少一字元的該等多個語音輸入中 的多個語音輸入來發展成多個辨認困形,且再者其中 該等多個辨認圖形被儲存在該拍錄裝置(100)中的該靜 態記憶體(116)中的該命令辨認表(126)中,其中該等多 (請先Μ讀背面之注$項再填寫本頁) 本紙張ΛΑ埴用中國國家糅準(CNS ) A4«l格(210X297公釐) 23 A8 BS C8 D8 '中請專利範圍 個辨認圖形各被連結於儲存在該命令辨認表(126)中的 多個預定指令組中之一來實施該等多個預定功能中之 — 〇 7. 依據申請專利範圍第6項的用於_拍錄裝置(1〇〇)之語 音控制輸入方法,其中步驟(aOa)被下列新步驟(aOa)取 代’步驟(aOb)、(aOf)、及(aOi)被消除,且步称(aOj)被 新步驟(aOj)取代: (aOa)取用在該拍錄裝置(1〇〇)中的該靜態記憶體 (116)中的語音分析軟艎(124):及 (aOj)把該至少一辨認圈形儲存在該拍錄裝置(1〇〇) 中的該靜態記憶體(116)中的該命令辨認表(126)中,其 中該至少一辨認圖形被連結於儲存在該命令辨認表 (126)中的該第一指令組來實施該預定功能。 8. 依據申請專利範圍第6或7項的用於一拍錄裝置(1〇〇)之 語音控制輸入方法,其中該至少一字元具語言不相依 性。 9. 依據申請專利範圍第1項的用於一拍錄裝置(1〇〇)之語 音控制輸入方法’其中代表一語音註記命令的該第一 辨認困形與儲存在該命令辨認表(126)中的該至少一辨 認圖形匹配’且再者其中在步驟中執行的該第一指 令組更包含下列步驟(Π)至(f8): (Π)實施步驟(f2)至(f6),直到語音輸入不出現之 一預定期間已經過為止; (f2)用在該拍錄裝置(丨〇〇)中之該語音拾取組件 (請先《讀背面之注意事項再填寫本頁) 7 t 經濟部智慧財產局員工消費合作社印製 【 - * 24 442772 A8 B8 C8 D8 經濟部智慧財產局員工消f合作社印製 六、申請專利範圍 (102)來拍錄一串流之語音輸入; (f3)把該串流之語音輪入轉換成一第二類比信號 , (f4)把該第二類比信號輸入至在該拍錄衾置(1〇0) 中的一類比至數位轉換器(104); (f5)在該類比至數位轉換器(1〇4>辛把該第二類比 信號轉換成一第二數位信號: (f6)把該第二數位信號從該類比至數位轉換器(1〇4) 傳送到在該拍錄裝置(100)中的一控制器(106): (Π)藉該控制器(106)把該第二數位信號儲存在該 拍錄裝置(100)中的該靜態記憶體(116)中作為_語音註 記檔案;及 (f8)把該語音註記檔案連接至儲存在該靜態記憶 體(116)中的一資料檔案。 10.依據申請專利範圍第〗項的用於一拍錄裝置(1〇〇)之語 音控制輸入方法,其更包含下列步驟: (g) 在一控制器(106)中從在該拍錄裝置(1〇〇)上的 一註記控制按鈕接收按鈕壓下輸入; (h) 實施步驊⑴至(m)直到在該控制器(1〇6)中從該 註記控制按鈕收到按鈕回復輸入為止: (i) 用該語音拾取组件(102)拍錄一串流之語音輸入 t 0)將該串流之語音輸入轉換成一第二類比信號: (k)把該第二類比信號輸入至在該拍錄裝置(丨〇〇)中 (请先《讀背*之注意事項再4窝本頁) 本紙張尺度埴用中國國家椹率(CNS ) ( 210X297公釐) 25 A8 B8 C8 __ DS 六、申請專利範圍 的一類比至數位轉換器(104); (l) 在該類比至數位轉換器(104)中將該第二類比信 號轉換成一第二數位信號; (m) 把該第二數位信號從該類比至數位轉換器(1〇4) 傳送到在該拍錄裝置(100)中的一控制器(106): (η)在該控制器(106)中從在該拍錄裝置(100)上的 該註記控制按鈕接收按鈕因復輸入; (〇)藉該控制器(106)把該第二數位信號儲存在該拍 錄裝置(100)中的該靜態記憶馥(116)中作為一語音註記 檔案;及 (Ρ)把該語音註記檔案連接至儲存在該靜態記憶體 (116)中的一資料檔案。 ---------^---------1T------^ (請先Μ讀背£.之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 張 紙 本 準 猱 家 a 國 中 用 適 釐 9 12 6 2
TW088115990A 1998-12-23 1999-09-16 Voice control input for portable capture devices TW442772B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/219,970 US6289140B1 (en) 1998-02-19 1998-12-23 Voice control input for portable capture devices

Publications (1)

Publication Number Publication Date
TW442772B true TW442772B (en) 2001-06-23

Family

ID=22821493

Family Applications (1)

Application Number Title Priority Date Filing Date
TW088115990A TW442772B (en) 1998-12-23 1999-09-16 Voice control input for portable capture devices

Country Status (6)

Country Link
US (1) US6289140B1 (zh)
EP (1) EP1014338A1 (zh)
JP (1) JP2000215021A (zh)
KR (1) KR20000057082A (zh)
CN (1) CN1214612C (zh)
TW (1) TW442772B (zh)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099306A (ja) * 1998-05-28 2000-04-07 Canon Inc 制御装置およびその制御方法およびその動作処理を実行するプログラムを記憶した記憶媒体
US6523061B1 (en) * 1999-01-05 2003-02-18 Sri International, Inc. System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system
US6449496B1 (en) * 1999-02-08 2002-09-10 Qualcomm Incorporated Voice recognition user interface for telephone handsets
CN1343337B (zh) * 1999-03-05 2013-03-20 佳能株式会社 用于产生包括音素数据和解码的字的注释数据的方法和设备
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6519607B1 (en) * 1999-10-28 2003-02-11 Hewlett-Packard Company Image driven operating system
WO2001031627A2 (en) * 1999-10-28 2001-05-03 Canon Kabushiki Kaisha Pattern matching method and apparatus
DE10011178A1 (de) * 2000-03-08 2001-09-13 Siemens Ag Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis
US6857008B1 (en) * 2000-04-19 2005-02-15 Cisco Technology, Inc. Arrangement for accessing an IP-based messaging server by telephone for management of stored messages
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US7133837B1 (en) * 2000-06-29 2006-11-07 Barnes Jr Melvin L Method and apparatus for providing communication transmissions
US7487112B2 (en) 2000-06-29 2009-02-03 Barnes Jr Melvin L System, method, and computer program product for providing location based services and mobile e-commerce
US7978219B1 (en) * 2000-08-30 2011-07-12 Kevin Reid Imes Device, network, server, and methods for providing digital images and associated processing information
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
US6903767B2 (en) 2001-04-05 2005-06-07 Hewlett-Packard Development Company, L.P. Method and apparatus for initiating data capture in a digital camera by text recognition
US7183944B2 (en) * 2001-06-12 2007-02-27 Koninklijke Philips Electronics N.V. Vehicle tracking and identification of emergency/law enforcement vehicles
US20040201681A1 (en) * 2001-06-21 2004-10-14 Jack Chen Multimedia data file producer combining image and sound information together in data file
GB2380556A (en) * 2001-10-05 2003-04-09 Hewlett Packard Co Camera with vocal control and recording
KR20030029308A (ko) * 2001-10-06 2003-04-14 정용석 음성분석을 이용한 건강진단 시스템 및 그 방법
GB2388209C (en) * 2001-12-20 2005-08-23 Canon Kk Control apparatus
US20040052403A1 (en) * 2002-01-25 2004-03-18 Houvener Robert C. High volume mobile identity verification system and method
US20030204403A1 (en) * 2002-04-25 2003-10-30 Browning James Vernard Memory module with voice recognition system
US10489449B2 (en) 2002-05-23 2019-11-26 Gula Consulting Limited Liability Company Computer accepting voice input and/or generating audible output
US8611919B2 (en) * 2002-05-23 2013-12-17 Wounder Gmbh., Llc System, method, and computer program product for providing location based services and mobile e-commerce
EP1378911A1 (en) * 2002-07-02 2004-01-07 RAI RADIOTELEVISIONE ITALIANA (S.p.A.) Metadata generator device for identifying and indexing of audiovisual material in a video camera
US20040041921A1 (en) * 2002-08-29 2004-03-04 Texas Instruments Incorporated Voice recognition for file naming in digital camera equipment
KR100770637B1 (ko) * 2002-12-12 2007-10-29 후지필름 가부시키가이샤 디지털 카메라
US7986974B2 (en) * 2003-05-23 2011-07-26 General Motors Llc Context specific speaker adaptation user interface
US20040243415A1 (en) * 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US20040267534A1 (en) * 2003-06-27 2004-12-30 General Motors Corporation Selective vehicle component control
US7417751B2 (en) * 2003-08-12 2008-08-26 Hewlett-Packard Development Company, L.P. Scanning to storage medium using scanning device
JP2005181365A (ja) * 2003-12-16 2005-07-07 Olympus Corp 撮像装置
GB2409365B (en) * 2003-12-19 2009-07-08 Nokia Corp Image handling
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
CN100403255C (zh) * 2005-03-17 2008-07-16 英华达(上海)电子有限公司 一种利用声音操作游戏的方法
US20070003168A1 (en) * 2005-06-29 2007-01-04 Microsoft Corporation Computer input device
US7627703B2 (en) * 2005-06-29 2009-12-01 Microsoft Corporation Input device with audio capabilities
US8694322B2 (en) * 2005-08-05 2014-04-08 Microsoft Corporation Selective confirmation for execution of a voice activated user interface
BRPI0615283A2 (pt) 2005-08-29 2011-05-17 Evryx Technologies Inc interatividade por meio de reconhecimento de imagem móvel
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20070136063A1 (en) * 2005-12-12 2007-06-14 General Motors Corporation Adaptive nametag training with exogenous inputs
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
WO2007079357A2 (en) * 2005-12-21 2007-07-12 Sandisk Corporation Voice controlled portable memory storage device
US7917949B2 (en) 2005-12-21 2011-03-29 Sandisk Corporation Voice controlled portable memory storage device
US8161289B2 (en) 2005-12-21 2012-04-17 SanDisk Technologies, Inc. Voice controlled portable memory storage device
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
US7792678B2 (en) * 2006-02-13 2010-09-07 Hon Hai Precision Industry Co., Ltd. Method and device for enhancing accuracy of voice control with image characteristic
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
JP5144424B2 (ja) * 2007-10-25 2013-02-13 キヤノン株式会社 撮像装置及び情報処理方法
CN101425004B (zh) * 2007-10-29 2011-12-07 福建星网锐捷通讯股份有限公司 用声音作为计算机系统输入控制的方法和装置
CN101465960B (zh) * 2007-12-19 2011-07-27 深圳富泰宏精密工业有限公司 具有语音控制功能的摄像装置及其使用方法
CA2665014C (en) * 2008-05-23 2020-05-26 Accenture Global Services Gmbh Recognition processing of a plurality of streaming voice signals for determination of responsive action thereto
JP5053950B2 (ja) * 2008-07-29 2012-10-24 キヤノン株式会社 情報処理方法、情報処理装置、プログラムおよび記憶媒体
FR2942890A1 (fr) * 2009-03-05 2010-09-10 Thomson Licensing Procede de creation d'une suite animee de photographies, et appareil pour mettre en oeuvre le procede
US20110010497A1 (en) * 2009-07-09 2011-01-13 Sandisk Il Ltd. A storage device receiving commands and data regardless of a host
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
CN101964204B (zh) * 2010-08-11 2013-05-01 方正科技集团苏州制造有限公司 一种录音和笔记对应的方法
KR20120086088A (ko) * 2011-01-25 2012-08-02 삼성전자주식회사 이미지 처리 방법 및 장치
US20120290689A1 (en) * 2011-05-15 2012-11-15 Adam Beguelin Network Interface Auto Configuration of Wireless Devices
WO2013049374A2 (en) * 2011-09-27 2013-04-04 Picsured, Inc. Photograph digitization through the use of video photography and computer vision technology
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
CN102404454A (zh) * 2011-11-16 2012-04-04 北京百纳威尔科技有限公司 移动终端的拍摄控制方法及装置
CN102708540A (zh) * 2012-04-21 2012-10-03 上海量明科技发展有限公司 一种针对截屏区域进行缩放的方法及客户端
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
TW201407538A (zh) * 2012-08-05 2014-02-16 Hiti Digital Inc 影像擷取裝置與利用語音辨識進行影像處理的方法
US9020825B1 (en) * 2012-09-25 2015-04-28 Rawles Llc Voice gestures
CN103902193A (zh) * 2012-12-30 2014-07-02 青岛海尔软件有限公司 利用语音操作电脑进行幻灯片切换的系统及方法
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
CN104065806A (zh) * 2013-03-20 2014-09-24 辉达公司 对移动信息设备的语音控制
US10699201B2 (en) * 2013-06-04 2020-06-30 Ent. Services Development Corporation Lp Presenting relevant content for conversational data gathered from real time communications at a meeting based on contextual data associated with meeting participants
US10842002B2 (en) * 2013-06-27 2020-11-17 General Scientific Corporation Head-mounted medical/dental accessories with voice-controlled operation
US9922667B2 (en) * 2014-04-17 2018-03-20 Microsoft Technology Licensing, Llc Conversation, presence and context detection for hologram suppression
US10529359B2 (en) 2014-04-17 2020-01-07 Microsoft Technology Licensing, Llc Conversation detection
CN104135619A (zh) * 2014-08-12 2014-11-05 广东欧珀移动通信有限公司 一种摄像头控制方法及装置
CN106125523A (zh) * 2016-08-25 2016-11-16 海南政法职业学院 一种新型会计教学专用打印设备
CN107786766A (zh) * 2016-08-29 2018-03-09 河源市新天彩科技有限公司 一种扫描仪的操作方法及扫描仪
US10248652B1 (en) * 2016-12-09 2019-04-02 Google Llc Visual writing aid tool for a mobile writing device
JP2018116206A (ja) * 2017-01-20 2018-07-26 アルパイン株式会社 音声認識装置、音声認識方法及び音声認識システム
CN109542386B (zh) * 2017-09-22 2022-05-06 卡西欧计算机株式会社 录音装置
CN113747069A (zh) * 2019-05-15 2021-12-03 深圳市大疆创新科技有限公司 一种拍摄控制方法、装置及控制设备、拍摄设备
CN111586255A (zh) * 2020-04-01 2020-08-25 武汉中观自动化科技有限公司 一种支持语音控制的扫描仪装置及扫描方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5697337A (en) 1979-12-31 1981-08-06 Minolta Camera Co Ltd Voice control camera
JPS58195957A (ja) * 1982-05-11 1983-11-15 Casio Comput Co Ltd 音声によるプログラム実行方式
US4776016A (en) * 1985-11-21 1988-10-04 Position Orientation Systems, Inc. Voice control system
HUT59761A (en) * 1986-11-25 1992-06-29 Zone Technology Pty Ltd Digital picture pick-up system
JP2687712B2 (ja) 1990-07-26 1997-12-08 三菱電機株式会社 一体型ビデオカメラ
US5313531A (en) * 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US5335313A (en) 1991-12-03 1994-08-02 Douglas Terry L Voice-actuated, speaker-dependent control system for hospital bed
AU4771893A (en) * 1992-07-14 1994-01-31 Sierra Matrix, Inc. Hands-free ultrasonic test view (hf-utv)
CA2157910A1 (en) * 1993-03-10 1994-09-15 Bruce Barker Data entry device
US5794251A (en) * 1994-06-06 1998-08-11 Canon Kabushiki Kaisha Information file processing apparatus and method
US5546145A (en) * 1994-08-30 1996-08-13 Eastman Kodak Company Camera on-board voice recognition
US5544654A (en) * 1995-06-06 1996-08-13 Acuson Corporation Voice control of a medical ultrasound scanning machine
JPH08340318A (ja) * 1995-06-13 1996-12-24 Kokusai Electric Co Ltd データ伝送方法及び装置
US5893064A (en) * 1997-05-14 1999-04-06 K2 Interactive Llc Speech recognition method and apparatus with voice commands and associated keystrokes
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server

Also Published As

Publication number Publication date
EP1014338A1 (en) 2000-06-28
KR20000057082A (ko) 2000-09-15
JP2000215021A (ja) 2000-08-04
CN1258162A (zh) 2000-06-28
CN1214612C (zh) 2005-08-10
US6289140B1 (en) 2001-09-11

Similar Documents

Publication Publication Date Title
TW442772B (en) Voice control input for portable capture devices
US6295391B1 (en) Automatic data routing via voice command annotation
US20080042970A1 (en) Associating a region on a surface with a sound or with another region
JP2007529831A (ja) 音声対話型メッセージング方法及び装置
CN207938056U (zh) 可访问的电子门进入系统
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
US6631348B1 (en) Dynamic speech recognition pattern switching for enhanced speech recognition accuracy
CN111326154A (zh) 语音交互的方法、装置、存储介质及电子设备
US20080161057A1 (en) Voice conversion in ring tones and other features for a communication device
CN111723653A (zh) 基于人工智能的绘本阅读方法及装置
KR102164773B1 (ko) 마이크로폰으로 인공지능스피커와 연동되는 전자펜 시스템
KR102156055B1 (ko) 인공지능스피커와 연동하여 인터랙티브 프로그램을 제어하는 전자펜 시스템
KR20200054154A (ko) 인공지능스피커의 기능을 조작하는 전자펜 시스템
KR102431663B1 (ko) 스탠드형 스마트 리딩 기기 및 그 제어 방법
KR20200030228A (ko) 인공지능스피커와 연동되는 전자펜 시스템
CN111428569A (zh) 基于人工智能的绘本或教材的视觉识别方法及装置
JP2020052511A (ja) 要約生成装置、要約生成方法、及びプログラム
KR200294684Y1 (ko) 대화형 디지털 액자
JP2003178066A5 (zh)
CN113382123A (zh) 扫描系统、存储介质以及扫描系统的扫描数据生成方法
JP2024071951A (ja) 情報処理装置、情報処理方法、及びプログラム
JPH03162165A (ja) 留守番電話機
CN114745349A (zh) 一种点评方法、电子设备及计算机可读存储介质
KR100793147B1 (ko) 플렉서블 스캐너를 사용하는 문자-음성 변환장치
JP2001282502A (ja) データ発生装置及びデータ発生方法

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees