TWI814651B - 整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法 - Google Patents
整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法 Download PDFInfo
- Publication number
- TWI814651B TWI814651B TW111145244A TW111145244A TWI814651B TW I814651 B TWI814651 B TW I814651B TW 111145244 A TW111145244 A TW 111145244A TW 111145244 A TW111145244 A TW 111145244A TW I814651 B TWI814651 B TW I814651B
- Authority
- TW
- Taiwan
- Prior art keywords
- unit
- radio
- sound
- voice
- degrees
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000007613 environmental effect Effects 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 3
- 238000003491 array Methods 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 206010011878 Deafness Diseases 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000010370 hearing loss Effects 0.000 description 4
- 231100000888 hearing loss Toxicity 0.000 description 4
- 208000016354 hearing loss disease Diseases 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 241000269400 Sirenidae Species 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000926 neurological effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/57—Mechanical or electrical details of cameras or camera modules specially adapted for being embedded in other devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/90—Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
- H04R25/405—Arrangements for obtaining a desired directivity characteristic by combining a plurality of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
- H04R25/407—Circuits for combining signals of a plurality of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/55—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
- H04R25/554—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired using a wireless connection, e.g. between microphone and amplifier or using Tcoils
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/60—Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
- H04R25/604—Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Neurosurgery (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Circuit For Audible Band Transducer (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本發明係整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法,包括有輔聽器本體、360度收音單元、攝影單元、警示器及控制單元。輔聽器本體有頸掛部及播放單元,頸掛部供使用者配戴,播放單元則例如耳機。360度收音單元供擷取輔聽器本體周緣360度之音訊,該音訊包括環境音及語音;攝影單元則供拍攝輔聽器本體周緣之人臉影像;控制單元儲存有至少一預設人臉影像與至少一預設語音及特殊環境音音頻,且控制單元接收該音訊及該人臉影像並透過電腦視覺技術分離並增強與該人臉影像相應之該語音,之後由播放單元撥放該語音,控制單元並於環境音屬於特殊環境音音頻時控制警示器發出警示訊息。
Description
本發明係一種整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法,特別是指可透過360度收音及電腦視覺以在聆聽階段全程鎖定發音對象的語音,並且針對使用者無法注意的視覺盲點處,辨識例如救護車警鈴等特殊環境音音頻而加以提供警示的輔聽裝置與方法。
研究顯示聽力損失對於神經系統相關疾病造成影響,例如聽力缺損被認為與阿茲海默症的發生呈正相關,而除了受傷導致的聽力損失之外,聽力也會隨著人體老化而退化。60歲以上的高齡者,聽力的退化往往造成生活上的困擾,高齡者的聽力一旦退化之後,說話次數會越來越少,而助聽器的使用可以改善聽力缺損問題或延緩聽力退化。目前智慧型助聽器可以將特定人聲鎖定並放大,也可以執行有效的環境降噪,但對於在聆聽期間全方位的鎖定發音對象的人聲並適時提醒考能造成危險的環境音,則尚未有此功能的智慧型輔聽器。
美國專利第US20210160624A1「HEARING AID WITH VOICE OR IMAGE RECOGNITION」,該案揭露助聽器使用波束成形麥克風陣列智慧
收音,以及使用唇形追蹤幫助判別分離語音訊號,並以顯示器等方式通知使用者被確定為識別的發音目標之圖像,以及可以選擇性地放大關聯於一已識別個體的語音的聲音訊號。該案另揭露多種實施情境,例如以眼鏡結合圖像感測器,可以用於捕獲用戶的視野的即時圖像資料,圖像傳感器可以是攝影機、手機或手錶等,上述的眼鏡也可以是皮帶扣或其他可夾置於背心、口袋、衣領、帽子等處的夾子;其中該案說明書0196段落提及該發明也可以提供一種基於攝像機的定向助聽器,用於基於用戶的注視方向選擇性地放大聲音,其中用戶的注視方向以追蹤图像传感器的光軸來達成,至於選擇性地放大聲音,則包括一個或多個麥克風,用於從用戶的環境中捕捉聲音,其中麥克風可以包括一個或更多指向性麥克風,藉以對拾取某些方向的聲音更敏感,另使用音頻分類技術對從用戶的環境中捕獲的聲音進行分類,例如音樂、音調、笑聲、尖叫聲等的片段。該專利的說明書0216段落中,提及助聽器系統可以存儲被識別人的語音特徵和/或面部特徵以幫助識別和選擇性放大。例如,當個人進入設備的視野時,該個人可以被識別為已經被介紹給設備的個人,或者過去可能與用戶交互過的個人(例如,朋友、同事、親戚,以前的熟人等),與所識別的個人的語音相關聯的音頻信號可以相對於用戶環境中的其他聲音被隔離和/或選擇性地放大。但如果該目標在對話過程中離開視野,該發明說明書0228段落中提及處理器可以分析目標的語音,通過確定檢測到的語音是否與數據庫中的個體的聲紋相匹配,使助聽器持續選擇性地放大該目標的聲音。
上述美國專利第US20210160624A1揭露多種實施情境,僅概括性的描述使用神經網路、卷積神經網路等技術來作語音分離,但對於執行步驟的技術細節卻完全沒有揭露,例如陣列麥克風如何配配置以執行有效的收音?此
外,如何有效地『全方位』鎖定目標影像與『全方位』鎖定目標聲音?該專利也未提供技術方案。再者,該專利使用音頻分類來分類音樂、音調、笑聲、尖叫聲等環境音,但對於有危險性的環境音並未能即時發出警示訊號來提行使用者。
另外,發明人曾提出中華民國發明專利申請第110119518號「自動或自由選擇獨立發音目標的方法、裝置、裝置之複合式麥克風、電腦程式與電腦可讀取媒體」,該案利用高階波束成形(二階以上)對語音目標聚焦收音及強化語音(較佳是收音主瓣在20度內),同時擷取語音目標之目標影像,並以智慧學習演算法分離出對應每一目標影像之獨立語音,特別是能夠辨識重疊的目標影像,藉以供選擇不同目標影像以撥放相對應獨立語音。
目前結合影像辨識的輔聽裝置,在辨識上大都是採用視覺追蹤結合波束成形,但是在影像及聲音擷取都是以使用者前方為目標,且通常不處理環境音而直接濾除。這樣的結果將導致使用者除前方以外的其它方位(例如後方)的影像及聲音被排除,例如當目標不在使用者的視線範圍內時,輔聽器則無法持續鎖定目標的語音;並且由於環境音通常被濾除,當使用者後方有緊急事件的聲音發出(例如救護車聲音、消防車聲音、後方車輛喇叭聲等等),使用者也無法及時迴避。
因此,本發明提出一種整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,包括:一輔聽器本體,設置有一播放單元;一360度收音單元,設置在該輔聽器本體上,該360度收音單元包含陣列的六個收音麥克風晶片,每一收
音麥克風晶片上有一收音區,任二前述收音區的連線分別位於0度、60度、90度、120度、150度、180度、210度、240度、270度、300度與380度的一收音連線上,以供擷取該輔聽器本體周緣360度之一音訊,該音訊包括一環境音及一語音;一攝影單元,設置在該輔聽器本體上,供拍攝該輔聽器本體周緣之一人臉影像;一警示單元,設置在該輔聽器本體上;一控制單元,儲存有至少一預設人臉影像、至少一預設語音及至少一特殊環境音音頻,該控制單元訊號連接該播放單元、該360度收音單元、該攝影單元及該警示單元,該控制單元接收該音訊及該人臉影像,當該人臉影像與任一前述預設人臉影像相符時,該控制單元以一第二指令控制該攝影單元鎖定該人臉影像,並根據該拍攝方位控制該360度收音單元持續擷取位於該拍攝方位的該語音,並由該播放單元播放該語音;在無該人臉影像,或該人臉影像與該預設人臉影像不相符,如果該語音與任一該預設語音相符時,該控制單元以一第三指令控制該播放單元播放與該預設語音相符的該語音;在無該人臉影像,或該人臉影像與該預設人臉影像不相符,且該語音時與該預設語音也不相符時,該控制單元根據該指向方位,控制該360度收音單元持續擷取位於該指向方位的該環境音及/或該語音,並由該播放單元播放該環境音及/或該語音;該控制單元並控制該360度收音單元隨時擷取該輔聽器本體周緣任一位置的該環境音,該控制單元比對該環境音是否屬於該特殊環境音音頻,並於該環境音屬於該特殊環境音音頻時,該控制單元優先播放該環境音,中斷或降低前述語音,該控制單元並同時控制該警示單元即時發出一警示訊息。。
進一步,該360度收音單元包括六個收音麥克風晶片,六個所述收音區在該360度收音單元上排列成三列,第一列有平行排列的第一收音區與
第二收音區,第二列有交錯排列第三收音區、第四收音區與第五收音區,第三列有一個第六收音區;其中該第五收音區與該第六收音區所形成的該收音連線位於0度與180度的方位,該第二收音區該第四收音區所形成的該收音連線位於30度與210度的方位,該第三收音區與該第四收音區所形成的該收音連線位於60度與240度的方位,該第一收音區與該第二收音區所形成的該收音連線位於90度與270度的方位,該第四收音區與該第五收音區所形成的該收音連線位於120度與300度的方位,該第一收音區該第四收音區所形成的該收音連線位於150度與330度的方位。
進一步,當該人臉影像因角度偏移而無法持續鎖定該語音時,該控制單元以高級自適應結合差分陣列(DMA)演算法鎖定音量最大的人聲語音作為該語音,而自該音訊分離出該語音及該環境音。
進一步,所述高級自適應結合差分陣列(DMA)演算法如下:,Sm(t)表示第m個收音麥克風晶片接收的音訊,Q(t)=[q(t)...q(t-Kg+1)]T為語音對第m個收音麥克風晶片的脈衝響應,呈現為零平均訊號的Kg個樣本的一組列向量,hm=[hm,1...hm,Kg]表示為Kg樣本的列向量,Um(t)是音訊中的環境音,T是轉置算子;因此,所述高級自適應結合差分陣列(DMA)演算法可計算第ma個收音麥克風晶片和第ma+1個收音麥克風晶片所接收的音訊;上述收音麥克風晶片的指向模式(pointing pattern)由零點轉向角θ 0定義,角度由收音麥克風晶片之間的距離dk和延遲時間τ k控制,如下:θ0=cos-1(-cτk/dk),其中c代表聲速,指向模式為心形模式(θ 0=180,k=dk/c),之後通過補償因子hk得到頻率響應如下:。
進一步,該攝影單元包括二攝影器,該二攝影器分別位於該頸掛部之相對前後二側。
進一步,該警示單元包括二震動器,該二震動器分別位於該頸掛部之相對左右二側。其中該控制單元經由該該360度收音單元辨識該環境音的方位,該控制單元並單獨控制對應該環境音的方位的其中一所述震動器產生震動。
進一步,其中該輔聽器本體包含二耳掛部與一頸戴部,該360度收音單元與該攝影單元設置於該頸戴部,該警示單元與該播放單元設置於所述二耳掛部。
進一步,該輔聽器本體包含二耳掛部與一頭戴部,該360度收音單元與該攝影單元設置於該頭戴部,該警示單元與該播放單元設置於所述二耳掛部。
進一步,該輔聽器本體包含二耳掛部與一配掛部,該配掛部設有可拆卸的配掛索,其中該360度收音單元與該攝影單元設置於該配掛部,該警示單元與該播放單元設置於所述二耳掛部,其中該配掛部與所述二耳掛部以無線連接。
本發明也是一種整合影像、音訊定位與全方位收音陣列之具警示功能輔聽方法,包含下列步驟:儲存複數特殊環境音音頻;儲存複數預設人臉影像;儲存複數預設語音;以該360度收音單元持續收集一環境音及一語音,該攝影單元以可變化的一拍攝方位拍攝一人臉影像或以一指向方位指向一目標;該控制單元並將該環境音比對於前述特殊環境音音頻,並於比對相符時產生一第一指令;該控制單元將該人臉影像比對於前述預設人臉影像,並於比對
相符時,產生一第二指令;該控制單元將該語音比對於前述預設語音,並於比對相符時產生一第三指令;該攝影單元啟動該指向方位而產生一第四指令;該第一指令係命令該播放單元播放當時的該環境音並產生一警示訊息;該第二指令係命令該攝影單元鎖定該人臉影像,並命令該播放單元播放位於該拍攝方位的該語音;該第三指令係命令該播放單元播放與前述預設語音相符的該語音;該第四指令係命令該播放單元播放位於該指向方位的該環境音及/或該語音;該第一指令、該第二指令、該第三指令與該第四指令之間依照一執行順位或一機動順位執行,其中該執行順位為該第一指令優先於該第二指令,該第二指令優先於該第三指令,該第三指令優先於該第四指令;該機動順位為該第一指令最優先,該第四指令優先於該該第二指令與該第三指令;當該第一指令、該第二指令、該第三指令與該第四指令中的至少二個存在時,該控制單元依照前述執行順位或該機動順位執行該第一指令、該第二指令、該第三指令與該第四指令中的存在者;當該第一指令、該第二指令、該第三指令與該第四指令中只有一個存在時,該控制單元僅執行該第一指令、該第二指令、該第三指令該第四指令中的存在者。
前述警示訊息係使該警示單元產生一震動。
進一步,當有二個以上人臉影像與前述預設人臉影像比對相符時,該第二指令係命令該攝影單元鎖定最接近該攝影單元的一拍攝方位的該人臉影像,並命令該播放單元播放最接近該拍攝方位的該語音。
進一步,在該攝影單元在鎖定該人臉影像時失效時,該控制單元以高級自適應結合差分陣列(DMA)演算法鎖定當時音量最大的該語音,並控制該播放單元播放音量最大的該語音。
進一步,當沒有人臉影像與前述預設人臉影像比對相符時,該第二指令係命令該播放單元播放最接近該指向方位的該語音。其中有二個以上語
音與前述預設語音比對相符時,該第二指令係命令該播放單元播放最接近該指向方位的該語音其中該攝影單元啟動該指向方位後,係進一步執行一指向方位優先命令,該控制單元根據該指向方位優先命令,將該執行順位改為該機動順位。
根據上述技術特徵可達成以下功效:
1.本發明可透過360度收音單元進行360度收音,另結合攝影單元動態追蹤發音對象以鎖定發音源,藉此可透過電腦視覺在攝影單元的拍攝範圍內,鎖定人臉影像,不中斷地持續擷取發音對象的語音,即使發音對象在使用者視線所不及的方位,例如左右側或後方,使用者完全無需轉頭,只要發音對象發出語音,就能透過360度收音單元持續擷取發音對象的語音。
2.當使用者位於街道環境中,本發明針對使用者無法注意的側面或後方,透過特殊環境音音頻(例如救護車警鈴、汽車喇叭聲等)的辨識,能夠提供即時的警示。
3.本發明透過陣列的六個收音區,使每一個主要角度的收音連線上至少都有二個以上的收音區位於該收音連線,能夠達到360度全方位收音的功能。
4.本發明於人臉影像因某些角度偏移而無法持續鎖定語音時,控制單元以高級自適應結合差分陣列(DMA)演算法持續鎖定音量最大的語音,使語音不會中斷,使用者也可以隨時啟動攝影單元的指向方位,以鎖定任一方位的語音。
5,危險的環境音始終被優先播放,熟人的人臉影像與語音被預先儲存,在對話中能快速鎖定熟人進行對話,對話中的熟人為多人時,也能以攝
影機的拍攝方位選擇發音對象,即使熟人位於拍攝視角之外例如側面或背面,透過預儲語音的比對,360度收音單元也能進行針對性的收音,供使用者進行對話。
6.利用本發明所提供的方法,例如經常對話的熟人可以先預儲其人臉影像與語音,一般的朋友則只預儲其語音,本發明對於對話中所拍攝到的人臉影像與收錄到的語音,將根據『執行順位』決定優先順序,其順位依序是:環境危險音、預儲有人臉影像的熟人語音、預儲有語音的一般朋友語音、陌生人語音。透過『執行順位』的方式,能讓最常對話的對話者能快速被鎖定對話,增加對話校效率。
7.本發明所提供的方法,也能與陌生人進行順利的對話,陌生人的人臉影像與語音雖然未被事先預儲,但在熟人與陌生人交錯的對話場合中,透過攝影單元啟動指向方位優先命令,能讓使用者選擇優先與陌生人或特定的熟人對話,完全能符合實際對話的需求。
1,1A,1B:輔聽器本體
10,10A10B:耳掛部
11:頸掛部
11A:頭掛部
11B:配戴部
111B:配掛索
12,12A,12B:播放單元
2,2A,2B,2C:360度收音單元
20,20A,20B:電路板
21:收音麥克風晶片
211:收音區
212:第一側
213:第二側
214:遮蔽區
3,3A,3B,3C:攝影單元
31:攝影器
31A,31B:360度全景攝影器
4,4A,4B:警示單元
41,41A,41B:震動器
5,5C:控制單元
6:發音對象
7:噪聲源
8:電池
901C:特殊環境音音頻
902C:預設人臉影像
903C:預設語音
904C:環境音
905C:語音
906C:拍攝方位
907C:人臉影像
908C:指向方位
909C:目標
910C:對象
911C:對象
912C:對象
913C:第一指令
914C:第二指令
915C:第三指令
916C:第四指令
917C:執行順位
918C:機動順位
[第一圖]係為本發明之輔聽器的立體外觀圖,其中的輔聽器本體包含頸戴部與耳掛部。
[第一A圖]係為本發明之360度收音單元與電路板的配置示意圖。
[第一B圖]係為本發明之輔聽器另一實施例的立體外觀圖,其中的輔聽器本體包含頭戴部與耳掛部。
[第一C圖]係為本發明之輔聽器另一實施例的立體外觀圖,其中的輔聽器本體包含配戴部與耳掛部。
[第一D圖]係為本發明之輔聽器另一實施例的實施示意圖,其中的輔聽器本體的配戴部與耳掛部彼此分離,使用於教室中的情境。
[第二圖]係為本發明之輔聽器的元件連結示意圖。
[第三圖]係為本發明實施例中,使用者配戴輔聽器的示意圖。
[第四圖]係為本發明之輔聽器的360度收音單元中,收音麥克風晶片的排列陣列示意圖。
[第五圖]係為本發明實施例中,收音麥克風晶片採用高級自適應結合差分陣列(DMA)演算法的示意圖。
[第六圖]係為本發明實施例中,測試收音麥克風晶片偵測不同角度聲源的示意圖。
[第七A圖]係為第六圖的測試結果,示意在30度角下根據訊號峰值有效偵測聲源。
[第七B圖]係為第六圖的測試結果,示意在60度角下根據訊號峰值有效偵測聲源。
[第七C圖]係為第六圖的測試結果,示意在90度角下根據訊號峰值有效偵測聲源。
[第八圖]係為第六圖的測試結果,示意收音麥克風晶片偵測不同角度聲源的成功率。
[第九圖]係為本發明實施例中,採用高級自適應結合差分陣列(DMA)演算法分離不同角度語音與環境音的測試示意圖。
[第十圖]係為第九圖的測試結果,示意語音與環境音分別相夾330及60度且與收音麥克風晶片在不同距離下分離語音的成功率。
[第十一圖]係為本發明實施例之輔聽器與習知輔聽器在不同方位下分離語音的成功率。
[第十二圖]係為本發明整合影像、音訊定位與全方位收音陣列之具警示功能輔聽方法的實施示意圖。
下列所述的實施例,只是輔助說明本發明整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,並非用以限制本發明。
參閱第一圖、第一A圖、第二圖及第三圖所示,本實施例之輔聽器包括一輔聽器本體1、一360度收音單元2、一攝影單元3、一警示單元4及一控制單元5。
該輔聽器本體1包含有二個耳掛部10、一頸掛部11及一播放單元12,該頸掛部11連接二個耳掛部10,其中頸掛部11用於套掛於使用者的頸部,耳掛部10用於分別掛在使用者的雙耳,本實施例的播放單元12係與警示單元4均分別設置在該耳掛部10。
參閱第一圖、第一A圖與第四圖所示,該360度收音單元2設置在該輔聽器本體1上,供擷取該輔聽器本體1周緣360度之一音訊,該音訊包括一環境音及一語音。該360度收音單元2包含一電路板20,較佳是該電路板20在實施時呈水平配置,使該電路板20能夠以水平的型態進行360度的收音,但該電路板20的配置不以完全水平為限。在本實施例中,360度收音單元2係樞接於該頸掛部11的其中一個端部位置,360度收音單元2與該頸掛部11之間可以調整角度,使上述電路板20能趨近於水平。該360度收音單元2包括六個收音麥克風晶片21,六個收音麥克風晶片21植設在一電路板20上,每個收音麥克風晶片21上
有一收音區211,上述收音麥克風晶片21有相對之一第一側212及一第二側213,該收音區211靠近該第一側212;上述六個收音麥克風晶片21排列成三列,第一列有二個收音麥克風晶片21,第二列有三個收音麥克風晶片21,第三列有一個收音麥克風晶片21;第一列之相鄰二個收音麥克風晶片21以第一側212相鄰排列;第二列之相鄰三個收音麥克風晶片21中,中央的收音麥克風晶片21以第一側212相鄰第一列之收音麥克風晶片21,相對二側的收音麥克風晶片21以第二側213相鄰第一列之收音麥克風晶片21,第三列之收音麥克風晶片21對齊第一列之二個收音麥克風晶片21其中之一,且與對齊之第一列的收音麥克風晶片21排列成相反側。具體而言,六個收音區在該電路板30上排列成三列,第一列有平行排列的第一收音區2111與第二收音區2112,第二列有交錯排列第三收音區2113、第四收音區2114與第五收音區2115,第三列有一個第六收音區2116;其中該第五收音區2115與該第六收音區2116所形成的該收音連線位於0度與180度的方位,該第二收音區2112該第四收音區2114所形成的該收音連線位於30度與210度的方位,該第三收音區2113與該第四收音區2114所形成的該收音連線位於60度與240度的方位,該第一收音區2111與該第二收音區2112所形成的該收音連線位於90度與270度的方位,該第四收音區2114與該第五收音區2115所形成的該收音連線位於120度與300度的方位,該第一收音區2111該第四收音區2114所形成的該收音連線位於150度與330度的方位。其中該該第一收音區2111該第四收音區2114所形成的該收音連線同時通過該第六收音區2116,但無論該收音連線有無通過該第六收音區2116,均不影像該150度與330度方位的收音連線的收音效果。此外,根據第四圖所示的陣列配置,存在有更多方位的收音連線,例如第一收音區2111與第三收音區2113的收音連線、第一
收音區2111與第五收音區2115的音連線、第三收音區2113與第六收音區2116的收音連線等,上述說明僅列出主要方位的收音連線,本發明收音連線的方位不以上述為限。較佳是上述收音連線的0度方向為使用者視線直視的方向。此外,較佳是上述六個收音麥克風晶片21的尺寸相同,利於模組化製造,利用上述的矩陣排列方式,只需使用六個收音麥克風晶片21,利用電路板20上極小的排列面積,就能擁有全方位的收音效果,且主要角度例如0度、30度、60度、90度、120度、150度、180度、210度、240度、270度、300度、330度的收音連線上,均至少能包含二個收音區211。唯上述六個收音麥克風晶片21設成尺寸相同並非唯一實施例,必要時使用不同尺寸的收音麥克風晶片21也可實施。
參閱第一圖、第一A圖、第二圖與第三圖所示,該攝影單元3樞接在該輔聽器本體1,供拍攝該輔聽器本體1周緣之一人臉影像,本實施例該攝影單元3包括二攝影器31,每個攝影器31都具有廣角的拍攝角度例如180度,該二攝影器31分別樞接於該頸掛部11的另一個端部位置及頸掛部11的中央,其中樞接於該頸掛部11的另一個端部位置的攝影器31拍攝使用者前方的人臉影像,樞接於該頸掛部11的中央位置的攝影器31拍攝使用者後方的人臉影像。實施時可以調整二攝影器31與頸掛部11之間的角度。本發明的攝影單元3也可以使用三個以上的攝影器31等距環佈在該頸掛部11上。
該警示單元4設置在該輔聽器本體1的耳掛部10上,本實施例該警示單元4包括二震動器41,該二震動器41分別位於該二個耳掛部11。本發明也可以使用三個以上的震動器41,並將震動器41設置在該耳掛部10與該頸掛部11上。
該控制單元5包含一處理單元及一儲存單元,其中處理單元用於處理指令及運算,儲存單元儲存有至少一預設人臉影像與至少一預設語音及特殊環境音音頻。本實施例的控制單元5訊號連接該播放單元12、該360度收音單元2、該攝影單元3及該警示單元4,另以一電池8連接上述控制單元5、播放單元12、360度收音單元2、攝影單元3及該警示單元4,以提供操作時必要的電力,上述控制單元5、電池8可以與前述的360度收音單元2設置在一起。該攝影單元3鎖定一發音對象6(顯示於第九圖)後,該攝影單元3動態追蹤拍攝該發音對象6,並持續拍攝該人臉影像,該360度收音單元2配合該人臉影像6而持續擷取該發音對象6的該語音,並由播放單元12播放。具體而言,該控制單元5接收該音訊及該人臉影像並透過電腦視覺技術分離並增強與該人臉影像相應之該語音,再由該播放單元12撥放該語音提示該發音對象的身分。在上述的實施方式中,360度收音單元2是根據該攝影單元3鎖定該發音對象6而在該鎖定期間擷取該語音,但除此之外,根據預先儲存的特殊環境音音頻,該360度收音單元2係進一步『隨時』擷取環境音,該控制單元5並比對該環境音是否屬於該特殊環境音音頻,並於該環境音屬於該特殊環境音音頻時控制該警示單元4發出一警示訊息。例如當特殊環境音音頻來自使用者左後方時,該控制單元5控制左側的震動器41產生震動,使用者即可根據左側震動的警示訊息往右側躲避並觀察左後方特殊環境音音頻的聲源(例如警車警鈴、救護車警鈴等...),而當特殊環境音音頻來自使用者右後方時,該控制單元5控制右側的震動器41產生震動,使用者即可根據右側震動的警示訊息往左側躲避並觀察右後方特殊環境音音頻的聲源。
在不同的實施例中。上述的控制單元5也可以是智慧型手機、智慧型手錶或平板等,藉由APP與前述播放單元12、360度收音單元2、攝影單元3及警示單元4,藉由無線方式連接並傳遞指令及訊息。
如第一B圖所示,在不同的實施例中,輔聽器本體1A包含二個耳掛部10A與一個頭戴部11A,該頭戴部11A供套設於使用者的頭頂,二個耳掛部10A則掛設於使用者的雙耳。攝影單元3A與360度收音單元2A以球形接頭連接於頭戴部11A的上方,可以進行多方向的調整,播放單元12A與警示單元4A的震動器41A則分別設置於耳掛部10A。上述的360度收音單元2A同樣包含一個水平設置的電路板20A,電路板20A上同樣包含如同前述陣列方式的六個收音麥克風晶片(未以符號標示)。上述的攝影單元3A是一個360度全景攝影器31A,可以拍攝360度的全景影像。
請參閱第一C圖,顯示本發明的另一種實施例,輔聽器本體1B包含二個耳掛部10B與一個配戴部11B,該配戴部11B配置有可卸離的配掛索111B供套設於使用者的頸部,配戴後的配戴部11B位於使用者的胸前,二個耳掛部10B則掛設於使用者的雙耳,二個耳掛部10B與該配戴部11B之間以藍牙或WiFi等無線方式相連接。攝影單元3B與360度收音單元2B設置於配戴部11B,播放單元12B與警示單元4B的震動器41B則分別設置於耳掛部10B。上述的360度收音單元2B同樣包含一個水平設置的電路板20B,電路板20B上同樣包含如同前述陣列方式的六個收音麥克風晶片(未以符號標示)。上述的攝影單元3B是一個360度全景攝影器31B,可以拍攝360度的全景影像。請參閱第一D圖,示意本發明使用於教室中的情境。二個耳掛部10B仍配掛於使用者的雙耳,配戴部11B則置放於使用者的遠處,例如講桌,360度全景攝影器31B用以鎖定發音對象6
例如教師的人臉影像,360度收音單元2B則擷取教師的聲音,除了危險環境音之外,所有教師以外的聲音將被濾除,透過二個耳掛部10B與該配戴部11B之間的無線傳遞,教師的聲音可以傳遞至二個耳掛部10B的播放單元12B。隨著教師在教室中走動,360度全景攝影器31B所拍攝的教師的人臉影像會有變化,第一D圖的箭頭方向標示了教師的走動路徑,隨著教師位置的不同,所拍攝的側面人臉影像與背面頭像可能無法用來鎖定語音,但此時轉用最大的人聲作為條件,仍能使360度收音單元2B持續擷取教師的聲音。亦即,本實施例的二個耳掛部10B與一個配戴部11B採用無線連結,配戴部11B除了使用配掛索111B配戴於胸前供使用者在日常對話中使用,也可以將配戴部11B置放於使用者身外無線連線可及的位置,例如教室、演講聽等場合,用於輔助鎖定發音對象6的語音,避免雜音的干擾。
參閱第五圖所示,當該人臉影像因某些角度偏移而無法持續鎖定該語音時,該控制單元5可使用高級自適應結合差分陣列(DMA)演算法鎖定音量最大的人聲語音作為該語音,而自該音訊分離出該語音及該環境音。所述高級自適應結合差分陣列(DMA)演算法如下:,Sm(t)表示第m個收音麥克風晶片21接收的音訊,Q(t)=[q(t)...q(t-Kg+1)]T為語音對第m個收音麥克風晶片21的脈衝響應,並呈現為零平均訊號的Kg個樣本的一組列向量,hm=[hm,1...hm,Kg]表示為Kg樣本的列向量,Um(t)是音訊中的環境音,T是轉置算子;因此,所述高級自適應結合差分陣列(DMA)演算法可計算第ma個收音麥克風晶片21和第ma+1個收音麥克風晶片21所接收的音訊;上述收音麥克風晶片21的指向模式(pointing pattern)由零點轉向角θ 0定義,角度由收音麥克風晶片21之間的距離dk和延遲時間τ k控制,如下:θ0=cos-1(-cτk/dk),其中c代表
聲速,指向模式為心形模式(θ 0=180,k=dk/c),之後通過補償因子hk得到頻率響應如下:。透過上述演算法自所獲得的音訊中分離出語音。
參閱第六圖至第八圖所示,本實施例的收音麥克風晶片21採用微機電(MEMS)全向麥克風,透過六個收音麥克風晶片21特殊的排列,可以確保達到360度精確收音的功能。
在人臉影像因某些角度偏移而無法持續鎖定語音的狀況下,測試本實施例之360度收音單元2識別音量最大的聲源的能力。在距離該360度收音單元2之100cm、130cm和160cm處,在360度圓周範圍內自0度角開始每隔30度角分別將聲源開啟5秒,並使用MATLABTM代碼編寫的希伯特變換(Hilbert transform)對來自每個角度位置的聲音信號進行處理,以計算聲音信號的振幅並找到峰值。如第七A圖至第七C圖所示,開啟30度角的聲源時,於5秒到10秒之間的峰值大於整個聲波的平均值,開啟60度角的聲源時,於10秒到15秒之間的峰值大於整個聲波的平均值,開啟90度角的聲源時,於15秒到20秒之間的峰值大於整個聲波的平均值。
其中,不同角度聲音信號的檢測成功率計算為:成功率(θt)=,其中,Ns是每個θ t為30度角的成功檢測次數,NT是實驗總次數。本實施例於每30度角進行NT為100次的實驗,第八圖中呈現大部分角度的檢測成功率在90%以上,而雖然在60度角、120度角、240度角和300度角的成功率略下降,但仍在80%以上。
參閱第九圖至第十圖所示,在人臉影像因某些角度偏移而無法持續鎖定語音的狀況下,測試本實施例之360度收音單元2從不同位置分離發音對象6之語音和噪聲源7之環境音的性能。將發音對象6設置在360度收音單元2的0
度角位置,噪聲源7分別設置在360度收音單元2的60度角位置及330度角位置,且發音對象6及噪聲源7分別與360度收音單元2的距離相同。第十圖呈現在發音對象6及噪聲源7與360度收音單元2在不同距離下(分別為100cm、120cm、140cm和160cm),檢測語音的成功率,其中60度角位置的檢測成功率為:100cm處為86%、120cm處為89%、140cm處為93%、160cm處為97%;330度角位置的檢測成功率為:100cm處為81%、120cm處為83%、140cm處為88%、160cm處為89%。上述實驗顯示本實施例之360度收音單元2能夠有效分離語音與環境音。
參閱第十一圖所示,將本實施例之輔聽器與習知輔聽器相比,當語音分別在使用者前方P1、30度角左前方P2、30度角右前方P3、30度角左後方P4、30度角右後方P5時,本實施例之輔聽器皆能有效鎖定語音,而習知輔聽器則無法鎖定位於使用者後方的語音。
請參閱第十二圖,本發明也是一種整合影像、音訊定位與全方位收音陣列之具警示功能輔聽方法,包含下列步驟:
利用儲存單元儲存複數特殊環境音音頻901C、複數預設人臉影像902C與複數預設語音903C,作為比對樣本。其中特殊環境音音頻901C例如是救護車鳴聲、車輛喇叭聲、消防車輛鳴聲與警車鳴聲等。預設人臉影像902C可以是最常對話者的人臉影像,每一對向的人臉影像可以是多張,分別為不同拍攝角度或不同表情。預設語音903C中包含了最常對話者與一般對話者的每人一段的預錄語音。
利用360度收音單元2C持續收集一環境音904C及一語音905C,攝影單元3C以可變化的一拍攝方位906C拍攝一人臉影像907C或以一指向方位908C指向一目標909C。上述的拍攝方位906C是指拍攝單元3C處於拍攝階段時
的方位,該拍攝方位906C由使用者控制,使用者藉由控制攝影單元3C的指向,將該拍攝方位906C指向對話中的對象910C。第十二圖中有三個對象910C、911C、912C,其中對象910C例如是熟識的朋友,預儲有人臉影像與語音在儲存單元中,對象911C例如是陌生人,沒有預儲有人臉影像與語音在儲存單元中,對象912C例如是另一位熟識的朋友,預儲有人臉影像與語音在儲存單元中。在該實施例中,使用者與二位熟識的朋友及一位陌生人共同對話。上述的指向方位908C指的是拍攝單元3C被手動停止拍攝,該期間拍攝單元3C所指向的方位,該指向方位908C由使用者控制。上述的目標909C指的是一聲音的來源,例如人聲或動物聲等,本實施例的目標909C為陌生人對象911C的語音905C。
控制單元5C將該環境音904C比對於前述特殊環境音音頻901C,並於比對相符時產生一第一指令913C。在本實施例中,某一環境音904C為救護車鳴聲,360度收音單元2C即時擷取該救護車鳴聲,由控制單元5C將該環境音904C與預儲的特殊環境音音頻901C進行比對,該環境音904C與眾多特殊環境音音頻901C其中的一個相符,控制單元5C據此產生一個第一指令913C。
該控制單元5C將該人臉影像907C比對於前述預設人臉影像902C,並於比對相符時,產生一第二指令914C。在對話情境中,使用者與三人對話過程中,對象910C與對象912C都為熟識朋友,預設人臉影像902C中有該二人的資料,對象911C為陌生人,預設人臉影像902中沒有該人的資料。對話過程中,三位對象910C、911C、912C的人臉都會被攝影單元3C拍攝到,但只有擷取到對象910C與912C的人臉影像907C時會產生第二指令914C。
該控制單元5C將該語音905C比對於前述預設語音903C,並於比對相符時產生一第三指令915C。在對話中,三位對象910C、911C、912C,預設人臉影像902C中預儲有對象910C與對象912C該二人的資料,沒有對象911C的資料,因此360度收音單元2C只有擷取到對象910C與對象912C該二人的語音905C時會產生第三指令915C。
該攝影單元3C啟動該指向方位908C而產生一第四指令916C。使用者在任何時候,可以控制攝影單元3C停止擷取人臉影像907C,此時攝影單元3C的鏡頭光軸指向仍能傳遞至控制單元5C,例如以攝影單元3C中內建的方向感測器將鏡頭光軸方向的訊息傳出,當時該攝影單元3C的鏡頭光軸指向,即為上述的指向方位908C,控制單元5C掌握了攝影單元3C的指向方位908C後,控制單元5C便能由360度收音單元2C中篩選出該指向方位908C的語音905C。
上述第一指令913C係命令該播放單元播放當時的該環境音904C並產生一警示訊息。對話過程中,一般的環境音904C例如風切聲、噪音等會被濾除,讓使用者可以專注於對話者的語音905C,但遇有救護車鳴聲,將觸發第一指令913C,播放單元將立即播放該救護車鳴聲,且警示單元也將發出震動以提醒使用者。此時對話中的語音905C,將被暫時中斷或減小音量。
第二指令914C係命令該攝影單元3C鎖定該人臉影像907C,並命令該播放單元播放位於該拍攝方位906C的該語音905C。本實施例中,攝影單元3C的拍攝方位906C指向對象910C,對象910C正與使用者對話,對象910C的臉部也朝向使用者,此時攝影單元3C將鎖定對象910C的人臉影像907C,播放單元也將播放對象910C的語音907C。此階段中,即使其他二位對象911C,912C正在彼此對話,播放單元也不會播放對象911C,912C的語音。另外,如果二位熟
識的對象910C,912C同時發出語音,由於對象910C更接近該拍攝方位906C,代表使用者此時較為關注對象910C,因此將優先選擇對象910C為對話方。對話階段中,如果沒有人臉影像907C與前述預設人臉影像902C比對相符時,該第二指令914C將命令該播放單元播放最接近當時指向方位908C的語音905C。如果在對話階段中,如果有二個以上語音905C與前述預設語音903C比對相符時,該第二指令914C係命令該播放單元播放最接近該指向方位908C的該語音
上述第三指令915C係命令該播放單元播放與前述預設語音903C相符的該語音905C。當對象910C正與使用者對話,但攝影單元3C無法完整拍攝對象910C的人臉影像907C時,例如對象910C帶著口罩或以側面臉部對著使用者等,因為對象910C的語音905C與預設語音903C的比對為相符,則第三指令915C將命令播放單元播放對象910C的語音905C。或者,對話者為一般朋友,預設人臉影像902C沒有預儲該人的資料,但預設語音903C中有預儲該人的資料,則對話中該第三指令915C將命令該播放單元播放該位朋友的語音905C。
前述第四指令916C係命令該播放單元播放位於該指向方位908C的該環境音904C及/或該語音905C。本方法保留了由使用者主動控制收音方向的功能,使用者可以隨時暫時關閉攝影單元3C的人臉拍攝,使攝影單元3C暫時用於指向,攝影單元3C以指向方位908C指向任一目標909C,藉以透過第四指令916C使播放單元播放位於該指向方位908C的直得關注的環境音904C、陌生人的語音905C等。
上述第一指令913C、第二指令914C、第三指令915C與第四指令916C之間依照一執行順位917C或一機動順位918C執行。其中該執行順位917C為該第一指令913C優先於該第二指令914C,該第二指令914C優先於該第三指
令915C,該第三指令915C優先於該第四指令916C。該機動順位918C為該第一指令913C最優先,該第四指令916C優先於該該第二指令914C與該第三指令915C。
當第一指令913C、第二指令914C、第三指令915C與該第四指令916C中的至少二個存在時,該控制單元5C依照前述執行順位917C或該機動順位918C執行該第一指令913C、該第二指令914C、該第三指令915C與該第四指令916C中的存在者。
當該第一指令913C、該第二指令914C、該第三指令915C與該第四指令916C中只有一個存在時,該控制單元5C僅執行該第一指令913C、該第二指令914C、該第三指令915C該第四指令916C中的存在者。
藉由上述執行順位917C,熟識朋友的語音905C能被優先篩選並播放,一般朋友的語音905C也能比陌生人的語音905C被篩選及播放。藉由機動順位918C,則能讓使用者自行決定優先篩選播放熟識朋友、一般朋友、陌生人任一對象的語音905C。但無論使用執行順位917C或機動順位918C,危險的環境音904C都能被最優先播放。
利用本發明所提供的方法與裝置,能提供更為智能化的輔聽過程,並對環境中的危險音做出即時的提示,用於課堂中也能有效幫助學習者只專注於教師的聲音,不受其他雜音所影響,有助於提升學習的專注度。
綜合上述實施例之說明,當可充分瞭解本發明之操作、使用及本發明產生之功效,惟以上所述實施例僅係為本發明之較佳實施例,當不能以此限定本發明實施之範圍,即依本發明申請專利範圍及發明說明內容所作簡單的等效變化與修飾,皆屬本發明涵蓋之範圍內。
1:輔聽器本體
10:耳掛部
11:頸掛部
12:播放單元
2:360度收音單元
3:攝影單元
31:攝影器
4:警示單元
41:震動器
Claims (17)
- 一種整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,包括:一輔聽器本體,設置有一播放單元;一360度收音單元,設置在該輔聽器本體上,該360度收音單元包含陣列的六個收音麥克風晶片,每一收音麥克風晶片上有一收音區,任二前述收音區的連線分別位於0度、60度、90度、120度、150度、180度、210度、240度、270度、300度與380度的一收音連線上,以供擷取該輔聽器本體周緣360度之一音訊,該音訊包括一環境音及一語音;一攝影單元,設置在該輔聽器本體上,以一拍攝方位拍攝該輔聽器本體周緣之一人臉影像,或沿著一指向方位指向該輔聽器本體周緣的任一目標;一警示單元,設置在該輔聽器本體上;一控制單元,儲存有至少一預設人臉影像、至少一預設語音及至少一特殊環境音音頻,該控制單元訊號連接該播放單元、該360度收音單元、該攝影單元及該警示單元,該控制單元接收該音訊及該人臉影像,當該人臉影像與任一前述預設人臉影像相符時,該控制單元以一第二指令控制該攝影單元鎖定該人臉影像,並根據該拍攝方位控制該360度收音單元持續擷取位於該拍攝方位的該語音,並由該播放單元播放該語音;在無該人臉影像,或該人臉影像與該預設人臉影像不相符,如果該語音與任一該預設語音相符時,該控制單元以一第三指令控制該播放單元播放與該預設語音相符的該語音;在無該人臉影像,或該人臉影像與該預設人臉影像不相符,且該語音時與該預設語音也不相符時,該控制單元根據該指向方位,控制該360度收音單元持續擷取位於該指向方位的該環 境音及/或該語音,並由該播放單元播放該環境音及/或該語音;該控制單元並控制該360度收音單元隨時擷取該輔聽器本體周緣任一位置的該環境音,該控制單元比對該環境音是否屬於該特殊環境音音頻,並於該環境音屬於該特殊環境音音頻時,該控制單元優先播放該環境音,中斷或降低前述語音,該控制單元並同時控制該警示單元即時發出一警示訊息。
- 如請求項1所述之整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,其中,六個所述收音區在該360度收音單元上排列成三列,第一列有平行排列的第一收音區與第二收音區,第二列有交錯排列第三收音區、第四收音區與第五收音區,第三列有一個第六收音區;其中該第五收音區與該第六收音區所形成的該收音連線位於0度與180度的方位,該第二收音區該第四收音區所形成的該收音連線位於30度與210度的方位,該第三收音區與該第四收音區所形成的該收音連線位於60度與240度的方位,該第一收音區與該第二收音區所形成的該收音連線位於90度與270度的方位,該第四收音區與該第五收音區所形成的該收音連線位於120度與300度的方位,該第一收音區該第四收音區所形成的該收音連線位於150度與330度的方位。
- 如請求項2所述之整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,其中,當該人臉影像因角度偏移而無法持續鎖定該拍攝方位的該語音時,該控制單元以高級自適應結合差分陣列(DMA)演算法鎖定音量最大的人聲語音作為該語音,而自該音訊分離出該語音及該環境音。
- 如請求項3所述之整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,所述高級自適應結合差分陣列(DMA)演算法如下:,Sm(t)表示第m個收音麥克風晶片接收的音訊, Q(t)=[q(t)...q(t-Kg+1)]T為語音對第m個收音麥克風晶片的脈衝響應,並呈現為零平均訊號的Kg個樣本的一組列向量,hm=[hm,1...hm,Kg]表示Kg樣本的列向量,Um(t)是音訊中的環境音,T是轉置算子;因此,所述高級自適應結合差分陣列(DMA)演算法可計算第ma個收音麥克風晶片和第ma+1個收音麥克風晶片所接收的音訊;上述收音麥克風晶片的指向模式(pointing pattern)由零點轉向角θ 0定義,角度由收音麥克風晶片之間的距離dk和延遲時間τ k控制,如下:θ0=cos-1(-cτk/dk),c代表聲速,指向模式為心形模式(θ 0=180,τ k=dk/c),之後通過補償因子hk得到頻率響應如下:。
- 如請求項1所述之整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,其中,該攝影單元包括二攝影器,該二攝影器分別位於該頸掛部之相對前後二側。
- 如請求項1所述之整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,其中,該警示單元包括二震動器,該二震動器分別位於該頸掛部之相對左右二側。
- 如請求項6所述之整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,其中該控制單元經由該該360度收音單元辨識該環境音的方位,該控制單元並單獨控制對應該環境音的方位的其中一所述震動器產生震動。
- 如請求項1所述之整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,其中該輔聽器本體包含二耳掛部與一頸戴部,該360度收音單元與該攝影單元設置於該頸戴部,該警示單元與該播放單元設置於所述二耳掛部。
- 如請求項1所述之整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,其中該輔聽器本體包含二耳掛部與一頭戴部,該360度收音單元與該攝影單元設置於該頭戴部,該警示單元與該播放單元設置於所述二耳掛部。
- 如請求項1所述之整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,其中該輔聽器本體包含二耳掛部與一配掛部,該配掛部設有可拆卸的配掛索,其中該360度收音單元與該攝影單元設置於該配掛部,該警示單元與該播放單元設置於所述二耳掛部,其中該配掛部與所述二耳掛部以無線連接。
- 一種整合影像、音訊定位與全方位收音陣列之具警示功能輔聽方法,使用於請求項1~10中任一項所述整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置,該整合影像、音訊定位與全方位收音陣列之具警示功能輔聽方法包含下列步驟:儲存複數特殊環境音音頻、複數預設人臉影像及複數預設語音;以該360度收音單元持續收集一環境音及一語音,該攝影單元以可變化的一拍攝方位拍攝一人臉影像或以一指向方位指向一目標;該控制單元並將該環境音比對於前述特殊環境音音頻,並於比對相符時產生一第一指令;該控制單元將該人臉影像比對於前述預設人臉影像,並於比對相符時,產生一第二指令;該控制單元將該語音比對於前述預設語音,並於比對相符時產生一第三指令;該攝影單元啟動該指向方位而產生一第四指令; 該第一指令係命令該播放單元播放當時的該環境音並產生一警示訊息;該第二指令係命令該攝影單元鎖定該人臉影像,並命令該播放單元播放位於該拍攝方位的該語音;該第三指令係命令該播放單元播放與前述預設語音相符的該語音;該第四指令係命令該播放單元播放位於該指向方位的該環境音及/或該語音;該第一指令、該第二指令、該第三指令與該第四指令之間依照一執行順位或一機動順位執行,其中該執行順位為該第一指令優先於該第二指令,該第二指令優先於該第三指令,該第三指令優先於該第四指令;該機動順位為該第一指令最優先,該第四指令優先於該該第二指令與該第三指令;當該第一指令、該第二指令、該第三指令與該第四指令中的至少二個存在時,該控制單元依照前述執行順位或該機動順位執行該第一指令、該第二指令、該第三指令與該第四指令中的存在者;當該第一指令、該第二指令、該第三指令與該第四指令中只有一個存在時,該控制單元僅執行該第一指令、該第二指令、該第三指令該第四指令中的存在者。
- 如請求項11所述整合影像、音訊定位與全方位音陣列之具警示功能輔聽方法,其中該警示訊息係使該警示單元產生一震動。
- 如請求項11所述整合影像、音訊定位與全方位收音陣列之具警示功能輔聽方法,其中有二個以上人臉影像與前述預設人臉影像比對相符時,該第二指令係命令該攝影單元鎖定最接近該攝影單元的一拍攝方位的該人臉影像,並命令該播放單元播放最接近該拍攝方位的該語音。
- 如請求項11所述整合影像、音訊定位與全方位收音陣列之具警示功能輔聽方法,其中在該攝影單元在鎖定該人臉影像失效時,該控制單元以 高級自適應結合差分陣列(DMA)演算法鎖定當時音量最大的該語音,並控制該播放單元播放音量最大的該語音。
- 如請求項11所述整合影像、音訊定位與全方位音陣列之具警示功能輔聽方法,當沒有人臉影像與前述預設人臉影像比對相符時,該第二指令係命令該播放單元播放最接近該指向方位的該語音。
- 如請求項11所述整合影像、音訊定位與全方位音陣列之具警示功能輔聽方法,其中有二個以上語音與前述預設語音比對相符時,該第二指令係命令該播放單元播放最接近該指向方位的該語音。
- 如請求項11所述整合影像、音訊定位與全方位音陣列之具警示功能輔聽方法,其中該攝影單元啟動該指向方位後,係進一步執行一指向方位優先命令,該控制單元根據該指向方位優先命令,將該執行順位改為該機動順位。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111145244A TWI814651B (zh) | 2022-11-25 | 2022-11-25 | 整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法 |
US18/337,820 US20240177588A1 (en) | 2022-11-25 | 2023-06-20 | Hearing aiding apparatus integrating image-acoustics positioning, omnidirectional acoustic reception, and warning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111145244A TWI814651B (zh) | 2022-11-25 | 2022-11-25 | 整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI814651B true TWI814651B (zh) | 2023-09-01 |
TW202422317A TW202422317A (zh) | 2024-06-01 |
Family
ID=88965916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111145244A TWI814651B (zh) | 2022-11-25 | 2022-11-25 | 整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240177588A1 (zh) |
TW (1) | TWI814651B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201526667A (zh) * | 2013-12-18 | 2015-07-01 | jing-feng Liu | 助聽系統與助聽系統之語音擷取方法 |
WO2016148825A1 (en) * | 2015-03-19 | 2016-09-22 | Intel Corporation | Acoustic camera based audio visual scene analysis |
US20180213345A1 (en) * | 2015-07-08 | 2018-07-26 | Nokia Technologies Oy | Multi-Apparatus Distributed Media Capture for Playback Control |
CN112995846A (zh) * | 2019-12-16 | 2021-06-18 | 陈筱涵 | 注意力集中辅助系统 |
-
2022
- 2022-11-25 TW TW111145244A patent/TWI814651B/zh active
-
2023
- 2023-06-20 US US18/337,820 patent/US20240177588A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201526667A (zh) * | 2013-12-18 | 2015-07-01 | jing-feng Liu | 助聽系統與助聽系統之語音擷取方法 |
WO2016148825A1 (en) * | 2015-03-19 | 2016-09-22 | Intel Corporation | Acoustic camera based audio visual scene analysis |
US20180213345A1 (en) * | 2015-07-08 | 2018-07-26 | Nokia Technologies Oy | Multi-Apparatus Distributed Media Capture for Playback Control |
CN112995846A (zh) * | 2019-12-16 | 2021-06-18 | 陈筱涵 | 注意力集中辅助系统 |
Also Published As
Publication number | Publication date |
---|---|
US20240177588A1 (en) | 2024-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108683972B (zh) | 声音处理系统 | |
US20190028817A1 (en) | System and method for a directional speaker selection | |
JP5456832B2 (ja) | 入力された発話の関連性を判定するための装置および方法 | |
US10303929B2 (en) | Facial recognition system | |
US20100123785A1 (en) | Graphic Control for Directional Audio Input | |
MX2009001254A (es) | Sistema de vigilancia de video y metodo con reconocimiento de video y audio combinado. | |
JP2007221300A (ja) | ロボット及びロボットの制御方法 | |
CN104349040B (zh) | 用于视频会议系统中的摄像机底座及其方法 | |
US10553196B1 (en) | Directional noise-cancelling and sound detection system and method for sound targeted hearing and imaging | |
TW200411627A (en) | Robottic vision-audition system | |
EP3195618B1 (en) | A method for operating a hearing system as well as a hearing system | |
TWI814651B (zh) | 整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法 | |
JP6290827B2 (ja) | オーディオ信号を処理する方法及び補聴器システム | |
TW202203207A (zh) | 用於擴展現實共享空間的音訊控制 | |
TWI725668B (zh) | 注意力集中輔助系統 | |
TW202422317A (zh) | 整合影像、音訊定位與全方位收音陣列之具警示功能輔聽裝置與方法 | |
ES2692828T3 (es) | Procedimiento de asistencia en el seguimiento de una conversación para una persona con problemas de audición | |
JP7118456B2 (ja) | 首掛け型装置 | |
JP2023514462A (ja) | 眼鏡フレーム内に一体化可能な補聴システム | |
US20240098409A1 (en) | Head-worn computing device with microphone beam steering | |
JP2019102062A (ja) | ヘッドマウントディスプレイ及びその制御方法 | |
US20230012555A1 (en) | Sound output control device, sound output system, sound output control method, and computer-readable storage medium | |
TWI799165B (zh) | 拍攝發聲目標的系統及方法 | |
WO2022009626A1 (ja) | 音声入力装置 | |
WO2012105844A1 (en) | Method for enhancing audio performance by selective capturing and processing of audio from a set of microphones |