TWI442917B - 具即時語音回報功能的導盲系統及其方法 - Google Patents
具即時語音回報功能的導盲系統及其方法 Download PDFInfo
- Publication number
- TWI442917B TWI442917B TW101103602A TW101103602A TWI442917B TW I442917 B TWI442917 B TW I442917B TW 101103602 A TW101103602 A TW 101103602A TW 101103602 A TW101103602 A TW 101103602A TW I442917 B TWI442917 B TW I442917B
- Authority
- TW
- Taiwan
- Prior art keywords
- image
- voice
- processing module
- module
- audio
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 38
- 230000004044 response Effects 0.000 title claims 3
- 238000012545 processing Methods 0.000 claims description 76
- 230000006870 function Effects 0.000 claims description 42
- 238000001514 detection method Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000012706 support-vector machine Methods 0.000 claims description 10
- 238000003708 edge detection Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000010191 image analysis Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000001771 impaired effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61H—PHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
- A61H3/00—Appliances for aiding patients or disabled persons to walk about
- A61H3/06—Walking aids for blind persons
- A61H3/061—Walking aids for blind persons with electronic detecting or guiding means
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61H—PHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
- A61H2201/00—Characteristics of apparatus not provided for in the preceding codes
- A61H2201/50—Control means thereof
- A61H2201/5023—Interfaces to the user
- A61H2201/5048—Audio interfaces, e.g. voice or music controlled
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61H—PHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
- A61H2201/00—Characteristics of apparatus not provided for in the preceding codes
- A61H2201/50—Control means thereof
- A61H2201/5058—Sensors or detectors
- A61H2201/5092—Optical sensor
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61H—PHYSICAL THERAPY APPARATUS, e.g. DEVICES FOR LOCATING OR STIMULATING REFLEX POINTS IN THE BODY; ARTIFICIAL RESPIRATION; MASSAGE; BATHING DEVICES FOR SPECIAL THERAPEUTIC OR HYGIENIC PURPOSES OR SPECIFIC PARTS OF THE BODY
- A61H2201/00—Characteristics of apparatus not provided for in the preceding codes
- A61H2201/50—Control means thereof
- A61H2201/5097—Control means thereof wireless
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72475—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users
- H04M1/72481—User interfaces specially adapted for cordless or mobile telephones specially adapted for disabled users for visually impaired users
Landscapes
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Pain & Pain Management (AREA)
- Physical Education & Sports Medicine (AREA)
- Rehabilitation Therapy (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本發明是有關於一種具即時語音回報功能的導盲系統及其方法,特別是有關於一種利用影像感測模組配合多核心處理器,以即時提供語音回報之具即時語音回報功能的導盲系統及其方法。
近年來,隨著科技的進步與人文的高度發展,人們越來越重視社會福利,如何讓行動不便者有更便利的社會,已成為越來越重要的課題。以視障者為例,導盲設施的完備,對於盲人行動的便捷性有莫大的助益,例如在紅綠燈處或電梯裡提供聲音警訊,或是在人行道設置導盲磚,但是這些導盲設施仍不夠完善而造成對盲人的不便利。
現今常見的導盲裝置皆有諸多缺點,傳統導盲杖只可探觸身前不遠處地面之障礙物;導盲犬雖可與視障者做些許互動,但其飼養成本較高,非一般人可負擔。其他常見電子導盲裝置,如利用全球定位系統配合語音系統,以告知視障者路況,又或利用預建地標配合語音回報系統,雖較過去導盲裝置更為便利,但都無法對路況作即時的分析回報。
有鑑於此,本發明之發明人思索並設計一種具即時語音回報功能
的導盲系統及其方法,以針對現有技術之缺失加以改善,進而增進產業上之實施利用。
有鑑於上述習知技藝之問題,本發明之其中一目的就是在提供一種具即時語音回報功能的導盲系統及其方法,以解決目前無法即時告知使用者路況之問題。
根據本發明之一目的,提出一種具即時語音回報功能的導盲系統,其包含:一影像感測模組、一記憶體、一影像處理模組、一系統處理模組及一音訊模組。影像感測模組感測一影像,影像中包含至少一物件。記憶體儲存複數筆訓練樣本及複數筆預設音訊資訊。影像處理模組對影像進行一影像檢測,以檢測至少一物件,並將檢測之至少一物件由影像中分割擷取,以產生至少一分割影像,並追蹤至少一分割影像,再對至少一分割影像進行一物件偵測,以萃取至少一分割影像之一物件特徵,並對物件特徵進行一物件辨識,以查找記憶體中相對應之訓練樣本,以產生一辨識訊號。系統處理模組執行一人機介面,且接收辨識訊號,並依據辨識訊號查找記憶體中相對應之些語音回報資訊,以產生一音訊訊號。音訊模組根據音訊訊號以輸出一語音音訊,以供一使用者聽取。其中,利用該影像處理模組及該系統處理模組,分別執行影像處理及語音回報,以使該具即時語音回報功能的導盲系統即時回報路況。
較佳地,具即時語音回報功能的導盲系統更可包含一輸入模組,使用者藉由輸入模組輸入一控制指令,以透過系統處理模組控制音訊模組。
較佳地,更包含一暫存記憶體,儲存第t-1擷取畫面之至少一分割影像,影像處理模組接收第t擷取畫面之至少一分割影像,並查找暫存記憶體之第t-1擷取畫面之至少一分割影像進行計算比對,影像處理模組查找第t-1擷取畫面之至少一分割影像進行計算比對後,將第t擷取畫面之至少一分割影像存入暫存記憶體。
較佳地,影像檢測可利用邊緣檢測計算理論(Computational theory of edge detection)或稱Canny演算法及連通物件標示法(connected-component labeling),對影像進行分析計算,以產生至少一分割影像。
較佳地,影像辨識可利用影像處理模組之一弱分類器(Weak Classifiers)及一強分類器(Strong Classifiers)對至少一分割影像進行分析計算,弱分類器利用布斯特(AdaBoost)演算法對影像訊號進行分析計算,以產生一輪廓訊號;強分類器利用旋轉強度之統計長條圖(Histogram of Oriented Gradients)方法對輪廓訊號進行影像分析以形成辨識訊號。
較佳地,影像處理模組可利用一支持向量機(Support Vector Machine,SVM),對至少一分割影像進行分類,以查找記憶體中所相對應之些訓練樣本。
較佳地,音訊模組可利用適應性差分脈衝編碼調變(Adaptive Differential Pulse-code modulation,ADPCM),對音訊號進行數位類比轉換,以產生語音音訊。
根據本發明之另一目的,提出一種即時語音回報方法,可應用於具即時語音回報功能的導盲系統,其包含下列步驟:提供一影像
感測模組感測一影像,影像中包含至少一物件。藉由一記憶體儲存複數筆訓練樣本及複數筆預設音訊資訊。藉由一影像處理模組對影像進行一影像檢測,以檢測至少一物件,並將檢測之至少一物件由影像中分割擷取,以產生至少一分割影像,並追蹤至少一分割影像,再對至少一分割影像進行一物件偵測,以萃取至少一分割影像之一物件特徵,並對物件特徵進行一物件辨識,以查找記憶體中相對應之些訓練樣本,以產生一辨識訊號。藉由一系統處理模組執行一人機介面,且接收辨識訊號,並依據辨識訊號查找記憶體中相對應之語音回報資訊,以產生一音訊訊號。提供一音訊模組根據音訊訊號以輸出一語音音訊,以供一使用者聽取。其中,利用該影像處理模組及該系統處理模組,分別執行影像處理及語音回報,以使該具即時語音回報功能的導盲系統即時回報路況。
1較佳地,更包含下列步驟:提供一輸入模組,使用者藉由輸入模組輸入一控制指令,以透過系統處理模組控制音訊模組。
較佳地,更包含下列步驟:藉由一暫存記憶體,儲存第t-1擷取畫面之至少一分割影像,影像處理模組接收第t擷取畫面之至少一分割影像,並查找暫存記憶體之第t-1擷取畫面之至少一分割影像進行計算比對,影像處理模組查找第t-1擷取畫面之至少一分割影像進行計算比對後,將第t擷取畫面之至少一分割影像存入暫存記憶體。
較佳地,影像檢測可利用邊緣檢測計算理論(Computational theory of edge detection)或稱Canny演算法及連通物件標示法(connected-component labeling),對影像進行分析計算,以
產生至少一分割影像。
較佳地,影像辨識可利用影像處理模組之一弱分類器(Weak Classifiers)及一強分類器(Strong Classifiers)對至少一分割影像進行分析計算,弱分類器利用布斯特(AdaBoost)演算法對影像訊號進行分析計算,以產生一輪廓訊號;強分類器利用旋轉強度之統計長條圖(Histogram of Oriented Gradients)方法對輪廓訊號進行影像分析以形成辨識訊號。
較佳地,影像處理模組可利用一支持向量機(Support Vector Machine,SVM),對至少一分割影像進行分類,以查找記憶體中所相對應之訓練樣本。
較佳地,音訊模組可利用適應性差分脈衝編碼調變(Adaptive Differential Pulse-code modulation,ADPCM),對音訊號進行數位類比轉換,以產生語音音訊。
承上所述,依本發明之具即時語音回報功能的導盲系統及其方法,其可具有一或多個下述優點:
(1)此具即時語音回報功能的導盲系統及其方法利用多核心處理器,分別進行影像處理及音訊處理,以改善過往利用單核心處理器,影像資訊與音訊資訊需經排序再處理,所造成時間延遲之問題,藉以達到即時語音回報環境情況之功效。
(2)此具即時語音回報功能的導盲系統及其方法,可進一步應用於一嵌入式操作平台,以達到低耗能、體積小、低成本及高效能之目的與功效。
10‧‧‧具即時語音回報功能的導盲系統
11‧‧‧影像感測模組
12‧‧‧記憶體
121‧‧‧訓練樣本
122‧‧‧語音回報資訊
13‧‧‧影像處理模組
131‧‧‧影像檢測
1311‧‧‧分割影像
132‧‧‧物件偵測
1321‧‧‧物件特徵
133‧‧‧物件辨識
1331‧‧‧辨識訊號
134‧‧‧物件追蹤
14‧‧‧系統處理模組
141‧‧‧人機介面
15‧‧‧音訊模組
151‧‧‧語音音訊
16‧‧‧暫存記憶體
17‧‧‧輸入模組
171‧‧‧控制指令
20‧‧‧影像
201‧‧‧物件
30‧‧‧使用者
51‧‧‧微型攝像裝置
52‧‧‧腰帶
521‧‧‧控制介面
53‧‧‧耳機
S71~S75‧‧‧流程步驟
第1圖係為本發明之具即時語音回報功能的導盲系統之方塊圖。
第2圖係為本發明之具即時語音回報功能的導盲系統之第一實施例第一示意圖。
第3圖係為本發明之具即時語音回報功能的導盲系統之第一實施例第二示意圖。
第4圖係為本發明之具即時語音回報功能的導盲系統之第一實施例第三示意圖。
第5圖係為本發明之具即時語音回報功能的導盲系統之第一實施例第四示意圖。
第6圖係為本發明之具即時語音回報功能的導盲系統之第二實施例之示意圖。
第7圖係為本發明之即時語音回報方法之流程圖。
為利 貴審查員瞭解本發明之技術特徵、內容與優點及其所能達成之功效,茲將本發明配合附圖,並以實施例之表達形式詳細說明如下,而其中所使用之圖式,其主旨僅為示意及輔助說明書之用,未必為本發明實施後之真實比例與精準配置,故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍,合先敘明。
本發明之具即時語音回報功能的導盲系統及其方法,主要是可利用多核心處理器,感測環境影像並產生相對應之語音,以告知使
用者實際環境之狀況,其可適用於導盲相關裝置,但實際可運用之範疇仍不僅以此所限制。
以下將參照相關圖式,說明依本發明之具即時語音回報功能的導盲系統及其方法之實施例,為使便於理解,下述實施例中之相同元件係以相同之符號標示來說明。
請參閱第1圖,其係為本發明之具即時語音回報功能的導盲系統之方塊圖。如圖所示,具即時語音回報功能的導盲系統10包含:一影像感測模組11、一記憶體12、一影像處理模組13、一系統處理模組14及一音訊模組15。影像感測模組11感測一影像20,該影像20中包含至少一物件201。其中影像感測模組11可以是感光耦合元件(Charge-coupled Device,CCD)或互補式金屬-氧化層-半導體(Complementary Metal-Oxide-Semiconductor,CMOS)。記憶體12儲存複數筆訓練樣本121及複數筆語音回報資訊122。影像處理模組13對該影像20進行一影像檢測131,以檢測該至少一物件201,並將檢測之該至少一物件201由該影像20中分割擷取,以產生至少一分割影像1311,並追蹤該至少一分割影像1311,再對該至少一分割影像1311進行一物件偵測132,以萃取該至少一分割影像1311之一物件特徵1321,並對該物件特徵1321進行一物件辨識133,以查找該記憶體12中相對應之該些訓練樣本121,以產生一辨識訊號1331。系統處理模組14執行一人機介面141,且接收該辨識訊號1331,並依據該辨識訊號1331查找該記憶體12中相對應之該些語音回報資訊122,以產生一音訊訊號142。其中影像處理模組11可以為數位訊號處理器(digital signal processor,DSP);系統處理模組14可為以進階精簡指令集機器
(Advanced RISC Machine,ARM)為架構之微處理器(常見如ARMv7或ARMv8)。音訊模組15根據該音訊訊號142以輸出一語音音訊151以供一使用者30聽取。其中,利用該影像處理模組13及該系統處理模組14,分別處理該影像20及該音訊訊號142,以使該系統處理模組14即時發出該語音音訊151。其中可依實際需求增設記憶體12,使影像處理模組13及系統處理模組14分別使用個別記憶體12,以提高運算效能。
請參閱第2圖,其係為本發明之具即時語音回報功能的導盲系統之第一實施例之第一示意圖。如圖所示,具即時語音回報功能的導盲系統10包含:一影像感測模組11、一記憶體12、一影像處理模組13、一系統處理模組14及一音訊模組15、暫存記憶體16及輸入模組17。相關作動與聯接關係與前述相同,於此不再贅述。
值得注意的是,影像感測模組11感測影像20後,將其轉換為影像訊號並傳送至影像處理模組13。影像處理模組13接收影像訊號後,對該影像進行影像檢測131,並依據影像20中之一物件201進行分析處理,以產生一分割影像1311。分割影像1311即相對於影像20中之物件201。分割影像1311被傳送至暫存記憶體16中;進一步地說,暫存記憶體16儲存第t-1擷取畫面之分割影像1311,當影像處理模組13接收第t擷取畫面之分割影像1311後,讀取暫存記憶體16之第t-1擷取畫面之分割影像1311,並將二者進行比對以確認分割影像1311所對應之物件201實際存在於影像20中,此過程稱為物件追蹤134。分割影像1311經過物件追蹤134以確認所對應之物件201實際存在後,影像處理模組11對分割影像1311進行一物件偵測132,以萃取分割影像1311之物件特徵1321。影像
處理模組13依據物件特徵1321,進行一物件辨識133;將物件特徵1321對記憶體12之訓練樣本121進行比對,以產生一辨識訊號1331,並傳送至系統處理模組14。其中訓練樣本121可依實際應用,利用一無線傳輸模組以定期更新其內容。系統處理模組14執行一人機介面141,且依據所接收之辨識訊號1331,對記憶體12之語音回報資訊122進行比對,以產生一音訊訊號142。音訊模組15接收音訊訊號142後,將其轉換為一語音音訊151以供使用者30聽取。音訊模組15可利用自適應差異脈衝編碼調變(Adaptive Differential Pulse-code modulation,ADPCM)的編解碼技術;音訊模組15更可設計連接至一無線耳機,以便於使用者30使用。使用者30可透過一輸入模組17輸入一控制指令171,以控制具即時語音回報功能的導盲系統10,如語音回報之聲音大小或系統開關機之相關操作;輸入模組17更可整合設計為語音控制方式,以便於使用者30操作。
請配合參閱第3圖、第4圖及第5圖。第3圖係為本發明之具即時語音回報功能的導盲系統之第一實施例之第二示意圖;第4圖係為本發明之具即時語音回報功能的導盲系統之第一實施例之第三示意圖;第5圖係為本發明之具即時語音回報功能的導盲系統之第一實施例之第四示意圖。影像20(如第4圖所示)經過影像檢測131利用邊緣檢測計算理論(Computational theory of edge detection)或稱Canny演算法或稱Canny演算法以產生一邊緣檢測影像(如第5圖所示),再透過快速連通物件標示法(connected-component labeling)以形成分割影像1311(如第6圖所示)。更進一步地說,影像檢測131首先將影像20利用Canny演
算法進行邊緣檢測,在檢測之後利用快速連通物件標示,進行物件最大面積的擷取,以產生分割影像1311。其中,連通物件標示法(connected-component labeling)為一掃描方式,在經切割後轉換成二值化的影像上,標示所有的連通物件區塊。其包含粗略(coarse)的掃描和精煉(refined)的掃描。在粗略的掃描方面,一個連接成份可能被分成幾個部份,而等價的標籤將被加到那些仍判斷為連接成份上去。然後再針對這些等價的標籤,用精煉的掃描來決定連通分量最後的標示。物件追蹤134概念主要是基於一物體在連續畫面中,其運動軌跡必保持一定之平滑性(smoothness),因此其運動方向與運動速度變化應反應一定程度之平滑性。可利用路徑連貫性函數(path coherence function)最小化演算法,來計算獲得出現於各幅畫面(frame)中各目標物件的運動軌跡,並以此計算在每一時間點上,出現於監控畫面中的各個目標物件之運動方向、位置、速度等資訊,以達到辨識分割影像1311所對應之物件201是否存在於影像20中。
物件偵測132及物件辨識133可利用一弱分類器及一強分類器,以達到縮短檢測時間與提供高檢測準確率之功效。更進一步地說,物件偵測132使用Haar-like特徵將物件特徵取出再丟入AdaBoost弱分類器以及cascade分類器內訓練。物件辨識133使用旋轉強度之統計長條圖(Histogram of Oriented Gradients)取出物件之特徵,再將其丟入SVM(Supported Vector Machine)之分類器學習,以訓練出更精確之強分類器。其中SVM(Supported Vector Machine)原理與類神經網路相似,其用途多用為分類(classification),假設已預先設定,何種骨架
特徵將會對應到人物,即可在取得動態物件骨架特徵後,經分類過程判斷所取得的不規則物件骨架特徵是否為人物。簡而言之,弱分類器對分割影像1311進行分析,以產生一輪廓訊號,強分類器利用旋轉強度之統計長條圖(Histogram of Oriented Gradients)方法,對該輪廓訊號進行影像分析,以形成辨識訊號1331。
請參閱第6圖,其係為本發明之具即時語音回報功能的導盲系統之第二實施例之示意圖。如圖所示,具即時語音回報功能的導盲系統10可應用於一導盲裝置。導盲裝置包含:一具即時語音回報功能的導盲系統10,一微型攝像裝置51、一腰帶52及一耳機53。具即時語音回報功能的導盲系統10包含:一影像感測模組11、一記憶體12、一影像處理模組13、一系統處理模組14及一音訊模組15、暫存記憶體16及輸入模組17,且各模組嵌入一基板,以成為一嵌入式系統。相關模組間之作動與前述相似,與此不再贅述。值得注意的是,微型攝像裝置51配合影像感測模組11,以進行影像擷取。影像感測模組11感測影像20後,利用影像處理模組13進行影像感測131、物件追蹤134、物件偵測132及物件辦識133後,產生一辨識訊號1331,系統處理模組14接收辨識訊號1331後,進行數位類比訊號轉換,以輸出一語音音訊151。使用者30可透過腰帶52上之控制介面521連接輸入模組17,以對具即時語音回報功能的導盲系統10進行開關機及聲音大小等控制。其中音訊模組15可以無線或有線方式連接耳機53。
請參閱第7圖,其係為本發明之一語音即時回報方法之流程圖。此語音即時回報方法適用於上述具即時語音回報功能的導盲系統
10,其方法包含下列步驟:步驟S71,提供一影像感測模組感測一影像,影像中包含至少一物件;步驟S72,藉由一記憶體儲存複數筆訓練樣本及複數筆預設音訊資訊;步驟S73,藉由一影像處理模組對影像進行一影像檢測,以檢測至少一物件,並將檢測之至少一物件由影像中分割擷取,以產生至少一分割影像,並追蹤至少一分割影像,再對至少一分割影像進行一物件偵測,以萃取至少一分割影像之一物件特徵,並對物件特徵進行一物件辨識,以查找記憶體中相對應之些訓練樣本,以產生一辨識訊號;步驟S74,藉由一系統處理模組執行一人機介面,且接收辨識訊號,並依據辨識訊號查找記憶體中相對應之些語音回報資訊,以產生一音訊訊號;以及步驟S75,提供一音訊模組根據音訊訊號以輸出一語音音訊,以供一使用者聽取。
其中,利用影像處理模組及系統處理模組,分別處理影像訊號及音訊訊號,以使系統處理模組即時發出語音音訊。
本發明之導盲方法的詳細說明以及實施方式已於前面敘述本發明之具即時語音回報功能的導盲系統時描述過,在此為了簡略說明便不再敘述。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明之精
神與範疇,而對其進行之等效修改或變更,均應包含於後附之申請專利範圍中。
10‧‧‧具即時語音回報功能的導盲系統
11‧‧‧影像感測模組
12‧‧‧記憶體
121‧‧‧訓練樣本
122‧‧‧語音回報資訊
13‧‧‧影像處理模組
131‧‧‧影像檢測
1311‧‧‧分割影像
132‧‧‧物件偵測
1321‧‧‧物件特徵
133‧‧‧物件辨識
1331‧‧‧辨識訊號
14‧‧‧系統處理模組
141‧‧‧人機介面
15‧‧‧音訊模組
151‧‧‧語音音訊
20‧‧‧影像
201‧‧‧物件
Claims (12)
- 一種具即時語音回報功能的導盲系統,其包含:一影像感測模組,係感測一影像,該影像中包含至少一物件;一記憶體,係儲存複數筆訓練樣本及複數筆預設音訊資訊;一影像處理模組,係對該影像進行一影像檢測,以檢測該至少一物件,並將檢測之該至少一物件由該影像中分割擷取,以產生至少一分割影像,並追蹤該至少一分割影像,再對該至少一分割影像進行一物件偵測,以萃取該至少一分割影像之一物件特徵,並對該物件特徵進行一物件辨識,以查找該記憶體中相對應之該些訓練樣本,以產生一辨識訊號;一系統處理模組,係執行一人機介面,且接收該辨識訊號,並依據該辨識訊號查找該記憶體中相對應之該些語音回報資訊,以產生一音訊訊號;以及一音訊模組,係根據該音訊訊號以輸出一語音音訊,以供一使用者聽取;其中,利用該影像處理模組及該系統處理模組,分別執行影像處理及語音回報,以使該具即時語音回報功能的導盲系統即時回報路況,其中,利用該影像處理模組之一弱分類器(Weak Classifiers)及一強分類器(Strong Classifiers)對該至少一分割影像進行分析計算,該弱分類器利用布斯特(AdaBoost)演算法對該至少一分割影像進行分析計算,以產生一輪廓訊號,該強分類器利用旋轉強度之統計長條圖(Histogram of Oriented Gradients)方法對該輪廓訊號進行影像分析以形成該辨識訊號。
- 如申請專利範圍第1項所述之具即時語音回報功能的導盲系統,其中該具即時語音回報功能的導盲系統更包含一輸入模組,該使用者藉由該輸入模組輸入一控制指令,以透過該系統處理模組控制該音訊模組。
- 如申請專利範圍第1項所述之具即時語音回報功能的導盲系統,其中更包含一暫存記憶體,係儲存一第t-1擷取畫面之該至少一分割影像,該影像處理模組接收第t擷取畫面之該至少一分割影像,並查找該暫存記憶體之第t-1擷取畫面之該至少一分割影像進行計算比對,該影像處理模組查找第t-1擷取畫面之該至少一分割影像進行計算比對後,將第t擷取畫面之該至少一分割影像存入該暫存記憶體。
- 如申請專利範圍第1項所述之具即時語音回報功能的導盲系統,其中該影像檢測係利用邊緣檢測計算理論(Computational theory of edge detection)或稱Canny演算法及連通物件標示法(connected-component labeling),對該影像進行分析計算,以產生該至少一分割影像。
- 如申請專利範圍第1項所述之具即時語音回報功能的導盲系統,其中該影像處理模組利用一支持向量機(Support Vector Machine,SVM),對該至少一分割影像進行分類,以查找該記憶體中所相對應之該些訓練樣本。
- 如申請專利範圍第1項所述之具即時語音回報功能的導盲系統,其中該音訊模組利用適應性差分脈衝編碼調變(Adaptive Differential Pulse-code modulation,ADPCM),對該音訊號進行數位類比轉換,以產生該語音音訊。
- 一種語音即時回報方法,係應用於一語音即時回報導盲系統,其包含下列步驟:提供一影像感測模組感測一影像,該影像中包含至少一物件;藉由一記憶體儲存複數筆訓練樣本及複數筆預設音訊資訊;藉由一影像處理模組對該影像進行一影像檢測,以檢測該至少一物件,並將檢測之該至少一物件由該影像中分割擷取,以產生至少一分割影像,並追蹤該至少一分割影像,再對該至少一分割影像進行一物件偵測,以萃取該至少一分割影像之一物件特徵,並對該物件特徵進行一物件辨識,以查找該記憶體中相對應之該些訓練樣本,以產生一辨識訊號;藉由一系統處理模組執行一人機介面,且接收該辨識訊號,並依據該辨識訊號查找該記憶體中相對應之該些語音回報資訊,以產生一音訊訊號;以及提供一音訊模組根據該音訊訊號以輸出一語音音訊,以供一使用者聽取;其中,利用該影像處理模組及該系統處理模組,分別執行影像處理及語音回報,以使該具即時語音回報功能的導盲系統即時回報路況,其中,利用該影像處理模組之一弱分類器(Weak Classifiers)及一強分類器(Strong Classifiers)對該至少一分割影像進行分析計算,該弱分類器利用布斯特(AdaBoost)演算法對該至少一分割影像進行分析計算,以產生一輪廓訊號,該強分類器利用旋轉強度之統計長條圖(Histogram of Oriented Gradients)方法對該輪廓訊號進行影像分析以形成該辨識訊號。
- 如申請專利範圍第7項所述之語音即時回報方法,其中更包含下列步驟:提供一輸入模組,該使用者藉由該輸入模組輸入一控制指 令,以透過該系統處理模組控制該音訊模組。
- 如申請專利範圍第7項所述之語音即時回報方法,其中更包含下列步驟:藉由一暫存記憶體,儲存第t-1擷取畫面之該至少一分割影像,該影像處理模組接收第t擷取畫面之該至少一分割影像,並查找該暫存記憶體之第t-1擷取畫面之該至少一分割影像進行計算比對,該影像處理模組查找第t-1擷取畫面之該至少一分割影像進行計算比對後,將該第t擷取畫面之該至少一分割影像存入該暫存記憶體。
- 如申請專利範圍第7項所述之語音即時回報方法,其中該影像檢測係利用邊緣檢測計算理論(Computational theory of edge detection)或稱Canny演算法及連通物件標示法(connected-component labeling),對該影像進行分析計算,以產生該至少一分割影像。
- 如申請專利範圍第7項所述之語音即時回報方法,其中該影像處理模組利用一支持向量機(Support Vector Machine,SVM),對該至少一分割影像進行分類,以查找該記憶體中所相對應之該些訓練樣本。
- 如申請專利範圍第7項所述之語音即時回報方法,其中該音訊模組利用適應性差分脈衝編碼調變(Adaptive Differential Pulse-code modulation,ADPCM),對該音訊號進行數位類比轉換,以產生該語音音訊。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101103602A TWI442917B (zh) | 2012-02-03 | 2012-02-03 | 具即時語音回報功能的導盲系統及其方法 |
US13/567,771 US8922632B2 (en) | 2012-02-03 | 2012-08-06 | Guide system having function of real-time voice response for the visually impaired and method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW101103602A TWI442917B (zh) | 2012-02-03 | 2012-02-03 | 具即時語音回報功能的導盲系統及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201332539A TW201332539A (zh) | 2013-08-16 |
TWI442917B true TWI442917B (zh) | 2014-07-01 |
Family
ID=49002446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101103602A TWI442917B (zh) | 2012-02-03 | 2012-02-03 | 具即時語音回報功能的導盲系統及其方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8922632B2 (zh) |
TW (1) | TWI442917B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI693935B (zh) * | 2019-05-30 | 2020-05-21 | 南開科技大學 | 盲人輔助系統及其方法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6402469B2 (ja) * | 2014-04-04 | 2018-10-10 | 富士電機株式会社 | 安全制御装置および安全制御システム |
CN105012118B (zh) * | 2014-04-22 | 2017-08-25 | 上海斐讯数据通信技术有限公司 | 一种智能导盲的方法及智能导盲杆 |
CN105030492A (zh) * | 2015-07-30 | 2015-11-11 | 苏州玄禾物联网科技有限公司 | 基于超声相控阵的盲人用拐杖 |
CN105267013B (zh) * | 2015-09-16 | 2017-11-07 | 电子科技大学 | 一种头戴式智能视障辅助系统 |
CN111127837A (zh) * | 2018-10-31 | 2020-05-08 | 杭州海康威视数字技术股份有限公司 | 一种报警方法、摄像机及报警系统 |
CN109831631A (zh) * | 2019-01-04 | 2019-05-31 | 华南理工大学 | 一种基于视觉注意特性的视-听觉转换导盲方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWM346877U (en) | 2008-07-17 | 2008-12-11 | Inventec Appliances Corp | Handheld communication device capable of recognizing traffic sign |
KR101487944B1 (ko) * | 2010-02-24 | 2015-01-30 | 아이피플렉 홀딩스 코포레이션 | 시각 장애인들을 지원하는 증강 현실 파노라마 |
TWM419956U (en) | 2011-08-05 | 2012-01-01 | Shinsoft Co Ltd | Ultra-wide-angle camera with function of intelligent identification |
-
2012
- 2012-02-03 TW TW101103602A patent/TWI442917B/zh not_active IP Right Cessation
- 2012-08-06 US US13/567,771 patent/US8922632B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI693935B (zh) * | 2019-05-30 | 2020-05-21 | 南開科技大學 | 盲人輔助系統及其方法 |
Also Published As
Publication number | Publication date |
---|---|
US20130222561A1 (en) | 2013-08-29 |
US8922632B2 (en) | 2014-12-30 |
TW201332539A (zh) | 2013-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI442917B (zh) | 具即時語音回報功能的導盲系統及其方法 | |
Maro et al. | Event-based gesture recognition with dynamic background suppression using smartphone computational capabilities | |
Deng et al. | Amae: Adaptive motion-agnostic encoder for event-based object classification | |
Huang et al. | Human action recognition using histogram of oriented gradient of motion history image | |
CN106648078B (zh) | 应用于智能机器人的多模态交互方法及系统 | |
Potdar et al. | A convolutional neural network based live object recognition system as blind aid | |
TW201201115A (en) | Facial expression recognition systems and methods and computer program products thereof | |
CN103854016A (zh) | 基于方向性共同发生特征的人体行为分类识别方法及系统 | |
Gupta et al. | Let the blind see: an AIIoT-based device for real-time object recognition with the voice conversion | |
Abdul et al. | Online blind assistive system using object recognition | |
Kamal et al. | Camera-Based Navigation System for Blind and Visually Impaired People | |
Badgujar et al. | Hand gesture recognition system | |
Ke et al. | Empowering Intelligent Home Safety: Indoor Family Fall Detection with YOLOv5 | |
Pachodiwale et al. | Viva: a virtual assistant for the visually impaired | |
Sen et al. | HGR-FYOLO: a robust hand gesture recognition system for the normal and physically impaired person using frozen YOLOv5 | |
Lee et al. | A walking guidance system for the visually impaired | |
Nguyen et al. | Car Detection for Smart Parking Systems Based on Improved YOLOv5 | |
Nguyen et al. | Vietnamese sign language reader using Intel Creative Senz3D | |
CN115280379A (zh) | 识别交通参与者的方法 | |
Joe | Enhanced sensitivity of motion detection in satellite videos using instant learning algorithms | |
Rani et al. | Recognition and Detection of Multiple Objects from Images: A Review | |
Tamilarasi et al. | Artificial intelligence vision for visually impaired | |
Kuehne et al. | On-line action recognition from sparse feature flow | |
Chandankhede et al. | Guiding Aid for Visually Impaired | |
Morozov et al. | Background subtraction using a convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |