TWI823346B - 信號處理系統、方法、裝置及儲存媒體 - Google Patents
信號處理系統、方法、裝置及儲存媒體 Download PDFInfo
- Publication number
- TWI823346B TWI823346B TW111114511A TW111114511A TWI823346B TW I823346 B TWI823346 B TW I823346B TW 111114511 A TW111114511 A TW 111114511A TW 111114511 A TW111114511 A TW 111114511A TW I823346 B TWI823346 B TW I823346B
- Authority
- TW
- Taiwan
- Prior art keywords
- signal
- noise
- vibration
- voice
- user
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000007613 environmental effect Effects 0.000 claims abstract description 56
- 230000009467 reduction Effects 0.000 claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims description 128
- 230000000694 effects Effects 0.000 claims description 38
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000003672 processing method Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 14
- 210000000988 bone and bone Anatomy 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000001055 chewing effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003370 grooming effect Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申請案揭露了一種信號處理系統及方法,所述信號處理系統包括至少一個麥克風和至少一個振動感測器。所述至少一個麥克風用於採集聲音信號,所述聲音信號包括使用者語音和環境雜訊中的至少一種。所述至少一個振動感測器用於採集振動信號,所述振動信號包括所述使用者語音和所述環境雜訊中的至少一種。所述信號處理系統還包括處理器,所述處理器用於確定所述聲音信號中雜訊成分與所述振動信號中雜訊成分之間的關係,並至少基於所述關係對所述振動信號進行降噪處理,以得到目標振動信號。
Description
本申請案涉及信號處理領域,更具體地,涉及一種對振動信號進行處理的系統、方法、裝置及儲存媒體。
本申請案主張於2021年3月19日提交之申請號為PCT/CN2021/081927的國際專利申請案的優先權,其全部內容通過引用的方式併入本文。
人在說話時,會同時引起骨骼和皮膚的振動,這些振動可以由振動感測器拾取,並轉換為相應的電信號或其他類型的信號。由於一般的環境雜訊很難引起骨骼或皮膚的振動,因而振動感測器相較於氣導麥克風而言,能夠記錄更加乾淨的語音信號,減小環境雜訊的干擾。
但是,當外界環境雜訊較大時,雜訊會帶動人體的骨骼、皮膚或者振動感測器本身振動,從而對振動感測器接收到的語音信號造成干擾。因此,有必要提供一種對振動感測器所採集的語音信號進行處理的方法,以降低外界雜訊對振動感測器造成的干擾。
本說明書實施例的一個態樣提供一種信號處理系統,包括:至少一個麥克風,所述至少一個麥克風用於採集聲音信號,所述聲音信號包括使用者語音和環境雜訊中的至少一種;至少一個振動感測器,所述至少一個振動感測器用於採集振動信號,所述振動信號包括所述使用者語音和所述環境雜訊中的至少一種;以及處理器,被配置為:確定所述聲音信號中雜訊成分與所述振動信號中雜訊成分之間的關係;以及至少基於所述關係對所述振動信號進行降噪處理,以得到目標振動信號。
本說明書實施例的另一個態樣提供一種信號處理方法,包括:獲取至少一個麥克風採集的聲音信號,所述聲音信號包括使用者語音和環境雜訊中的至少一種;獲取至少一個振動感測器採集的振動信號,所述振動信號包括所述使用者語音和所述環境雜訊中的至少一種;確定所述聲音信號中雜訊成分與所述振動信號中雜訊成分之間的關係;以及至少基於所述關係對所述振動信號進行降噪處理,以得到目標振動信號。
本說明書實施例的另一個態樣提供一種電子設備,包括至少一個處理器以及至少一個記憶體;所述至少一個記憶體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令中的至少部分指令以實施如上所述的操作。
為了更清楚地說明本說明書實施例的技術方案,下面將對實施例描述中所需要使用的附圖作簡單的介紹。顯而易見地,下面描述中的附圖僅僅是本說明書的一些示例或實施例,對於所屬技術領域中具有通常知識者來講,在不付出進步性努力的前提下,還可以根據這些附圖將本發明應用於其它類似情景。除非從語言環境中顯而易見或另做說明,圖式中相同元件符號代表相同結構或操作。
應當理解,本文使用的“系統”、“裝置”、“單元”和/或“模組”是用於區分不同級別的不同元件、組件、部件、部分或裝配的一種方法。然而,如果其他詞語可實現相同的目的,則可通過其他表達來替換所述詞語。
如本說明書和申請專利範圍中所示,除非上下文明確提示例外情形,“一”、“一個”、“一種”和/或“該”等詞並非特指單數,也可包括複數。一般說來,術語“包括”與“包含”僅提示包括已明確標識的步驟和元素,而這些步驟和元素不構成一個排它性的羅列,方法或者設備也可以包含其它的步驟或元素。
本說明書中使用了流程圖用來說明根據本說明書的實施例的系統所執行的操作。應當理解的是,前面或後面操作不一定按照順序來精確地執行。相反地,可以按照倒序或同時處理各個步驟。同時,也可以將其他操作添加到這些過程中,或從這些過程移除某一步驟或數個步驟的操作。
振動感測器能夠在人說話時偵測皮膚或骨骼的振動,並將其轉化為電信號。但是,振動感測器在採集使用者語音的同時通常會伴隨一些雜訊信號,例如環境雜訊,咀嚼、行走等產生的雜訊或者皮膚與振動感測器摩擦產生的雜訊。因此,有必要對振動感測器所採集的信號進行降噪,以降低雜訊信號所造成的干擾。
針對上述問題,本說明書實施例提供一種信號處理系統及方法,通過將振動感測器所採集的振動信號與麥克風所採集的聲音信號相結合,確定出振動信號和聲音信號中雜訊成分之間的關係,並基於該關係以及聲音信號中的雜訊成分對振動信號進行降噪,從而降低雜訊所造成的干擾。
下面結合附圖對本說明書實施例所提供的信號處理系統及方法進行詳細說明。
圖1是根據本說明書一些實施例所示的信號處理系統的應用場景示意圖。
如圖1所示,在一些實施例中,信號處理系統100可以包括麥克風110、網路120、振動感測器130、處理器140以及記憶體150。在一些實施例中,系統100中的各個元件之間可以通過網路120互相連接。例如,麥克風110與處理器140之間可以通過網路120連接或通信,麥克風110與記憶體150之間可以通過網路120連接或通信,記憶體150與處理器140之間可以通過網路120連接或通信。在一些實施例中,網路120不是必須的。例如,麥克風110、振動感測器130、處理器140以及記憶體150可以作為不同部件而整合在同一個電子設備中。所述電子設備包括耳機、眼鏡、智慧頭盔等可穿戴設備。該電子設備的不同部件之間可以通過金屬導線連接並傳遞資料。
在一些實施例中,信號處理系統100可以包括一個或多個麥克風110,以及一個或多個振動感測器130。該一個或多個麥克風110可以用於採集使用者語音和環境雜訊,並產生聲音信號。所述使用者語音和環境雜訊可以通過空氣傳導的方式傳遞到麥克風110。該一個或多個振動感測器130可以與使用者身體接觸,例如與使用者的面部或頸部等接觸,通過接收使用者說話或環境雜訊導致的該接觸部位的物理振動以產生振動信號。在一些實施例中,多個麥克風110可以以陣列形式排布,形成麥克風陣列。所述麥克風陣列可以識別來自特定方向的空氣傳導聲音,例如,來自使用者嘴巴的聲音,來自除了使用者嘴巴以外其它方向的聲音等。
網路120可以包括能夠促進系統100的資訊和/或資料交換的任何合適的網路。在一些實施例中,系統100的至少一個元件(例如,麥克風110、振動感測器130、處理器140、記憶體150)可以通過網路120與系統100中至少一個其他元件交換資訊和/或資料。例如,處理器140可以通過網路120從麥克風110或振動感測器130獲得信號。又例如,處理器140可以通過網路120從記憶體150獲得預設處理指示。網路120可以是或可以包括公共網路(例如,網際網路)、私人網路(例如,區域網路(Local Area Network, LAN))、有線網路、無線網路(例如,802.11網路、Wi-Fi網路)、框架轉送網路、虛擬私人網路(Virtual Private Network, VPN)、衛星網路、電話網路、路由器、集線器、交換機、伺服器電腦和/或其任意組合。例如,網路120可以包括有線網路、無線網路、光纖網路、電信網路、內部網路、無線區域網路(Wireless Local Area Network , WLAN)、都會區網路(Metropolitan Area Network, MAN)、公用切換式電話網路(Public Switched Telephone Network, PSTN)、藍牙網路、ZigBee
TM網路、近場通信(Near Field Communication, NFC)網路等或其任意組合。在一些實施例中,網路120可以包括至少一個網路接入點。例如,網路120可以包括有線和/或無線網路接入點,例如基站和/或網際網路交換點,系統100的至少一個元件可以通過接入點連接到網路120以交換資料和/或資訊。在一些實施例中,麥克風110和振動感測器130可以整合在同一個電子設備(例如耳機)中。該電子設備可以通過網路120與其它終端設備進行交流。例如,該電子設備可以通過網路120將麥克風110和振動感測器130產生的電信號發送給使用者終端(例如,手機),由使用者終端對接收到的信號進行處理,再將處理後的信號通過網路120發送回該電子設備。這種方式可以減少該電子設備對信號處理的負擔,從而有效減少該電子設備上信號處理器(如果有的話)及電池的尺寸。
處理器140可以處理從麥克風110、振動感測器130、記憶體150或系統100的其他元件獲得資料和/或指令。例如,處理器140可以從麥克風110獲得聲音信號,從振動感測器130獲得振動信號,並對二者進行處理,確定該聲音信號中雜訊成分與該振動信號中雜訊成分之間的關係。又例如,處理器140可以從記憶體150獲取預先儲存的指令,並執行該指令以實現如下所述的信號處理方法。僅作為示例,處理器可以包括中央處理單元(Central Processing Unit, CPU)、專用積體電路(Application Specific Integrated Circuit, ASIC)、專用指令集處理器(ASIP)、圖形處理單元(Graphics Processing Unit, GPU)、物理處理單元(Physics Processing Unit, PPU)、數位訊號處理器(Digital Signal Processor,DSP)、現場可程式閘陣列(Field-programable Gate Array, FPGA)、可程式邏輯電路(Programable Logic Device, PLD)、控制器、微控制器單元、精簡指令集電腦(Reduced Instruction-Set Computer, RISC)、微處理器等或以上任意組合。
在一些實施例中,處理器140可以是本地或遠端的。例如,處理器140和麥克風110、振動感測器130可以整合在同一個電子設備,或者分佈在不同的電子設備中。在一些實施例中,處理器140可以在雲端平臺上實現。例如,雲端平臺可以包括私有雲、公共雲、混合雲、社區雲、分散式雲、雲間雲、多層雲等或其任意組合。
記憶體150可以儲存資料、指令和/或任何其他資訊。在一些實施例中,記憶體150可以儲存麥克風110採集的聲音信號和/或振動感測器130採集的振動信號。在一些實施例中,記憶體150可以儲存處理器140用來執行或使用來完成本說明書中描述的示例性方法的資料和/或指令。在一些實施例中,記憶體150可以包括大量存放區、卸除式存放裝置、揮發性讀寫記憶體、唯讀記憶體(ROM)等或其任意組合。示例性的大量存放區可以包括磁片、光碟、固態磁片等。示例性卸除式存放裝置可以包括快閃記憶體驅動器、軟碟、光碟、儲存卡、壓縮磁碟、磁帶等。示例性揮發性讀寫記憶體可以包括隨機存取記憶體(RAM)。在一些實施例中,記憶體150可以在雲端平臺上實現。
在一些實施例中,記憶體150可以連接到網路120以與系統100中的至少一個其他元件(例如,處理器140)通信。系統100中的至少一個元件可以通過網路120訪問記憶體150中儲存的資料或指令或向記憶體150中寫入資料。在一些實施例中,記憶體150可以是處理器140的一部分。
需要注意的是,以上對於信號處理系統100及其各組成部分的描述,僅為描述方便,並不能把本說明書限制在所舉實施例範圍之內。可以理解,對於所屬技術領域中具有通常知識者來說,在瞭解該系統的原理後,可能在不背離這一原理的情況下,對各個組成部分進行任意組合,或者構成子系統與其他模組連接。在一些實施例中,各個組成部分可以共用一個記憶體150。在一些實施例中,各個組成部分也可以分別具有各自的儲存模組。諸如此類的變形,均在本說明書的保護範圍之內。
在一些實施例中,上述信號處理系統100可以應用於電子設備等裝置,例如耳機、眼鏡、智慧頭盔等可穿戴電子設備,以降低雜訊對振動感測器所採集的使用者語音信號的干擾。需要說明的是,前述裝置或設備僅為舉例說明,本說明書實施例所提供的信號處理系統100可以應用於,但不限於前述裝置或電子設備。
圖2是根據本說明書一些實施例所提供的信號處理方法的流程示意圖。在一些實施例中,流程200可以利用以下未描述的一個或以上附加操作,和/或不通過以下所討論的一個或以上操作完成。另外,如圖2所示的操作的順序並非限制性的。在一些實施例中,流程200可以應用於圖1所示的信號處理系統100。在一些實施例中,流程200可以由處理器140執行。
如圖2所示,在一些實施例中,流程200可以包括下述步驟:
步驟210,由至少一個麥克風採集使用者語音和環境雜訊中的至少一種,產生聲音信號。
在一些實施例中,可以由一個或多個麥克風採集使用者語音和/或環境雜訊,其中,使用者語音可以指使用者說話或發聲所產生的聲音,例如使用者正常說話所產生的聲音,以及笑聲、哭聲、呐喊聲等,環境雜訊可以指除使用者語音以外的聲音,例如風聲、雨聲、車聲、機器轟鳴聲等由其他物體所產生的聲音。這裡的使用者可以指佩戴所述至少一個麥克風的人。當使用者說話時,該一個或多個麥克風可以同時採集使用者發出的聲音和環境雜訊,此時產生的聲音信號中會同時包含與使用者聲音對應的使用者語音成分和與環境雜訊對應的雜訊成分。當使用者未說話時,該一個或多個麥克風僅採集環境雜訊,此時產生的聲音信號中僅包含與環境雜訊對應的雜訊成分。在一些實施例中,該一個或多個麥克風可以指氣傳導麥克風。在一些實施例中,該一個或多個麥克風可以包含單麥克或者麥克風陣列。所述麥克風陣列中的不同麥克風可以相距使用者嘴巴不同的距離。
在一些實施例中,處理器140可以獲取由該一個或多個麥克風所產生的聲音信號。該聲音信號可以是電信號或其他形式的信號。
步驟220,由至少一個振動感測器採集所述使用者語音和所述環境雜訊中的至少一種,產生振動信號。
在一些實施例中,可以在前述一個或多個麥克風採集使用者語音和/或環境雜訊的同時,由一個或多個振動感測器採集該使用者語音和/或該環境雜訊引起的振動。此時,由所述麥克風產生的聲音信號和由所述振動感測器產生的振動信號對應於相同的聲音內容。在一些實施例中,該一個或多個振動感測器可以與使用者的身體接觸,例如面部、頸部等部位,以採集使用者發聲時其皮膚或骨骼所產生的振動。當存在多個振動感測器時,該多個振動感測器可以位於使用者身體的不同部位,其分別採集使用者不同部位的振動並產生所述振動信號。例如,所述振動信號可以是多個振動感測器中信號強度最強的振動感測器所對應的電信號。再例如,所述振動信號可以是將多個振動感測器各自採集到的電信號進行組合後形成的。
在一些實施例中,處理器140可以獲取由該一個或多個振動感測器所產生的振動信號。在一些實施例中,該振動信號可以是電信號或其他形式的信號。在一些實施例中,前述振動信號與聲音信號可以在同一時刻或同一時間段採集得到。在一些實施例中,前述振動信號與聲音信號可以基於同一時脈信號進行同步。
步驟230,確定所述聲音信號中雜訊成分與所述振動信號中雜訊成分之間的關係。
由於該聲音信號中的雜訊成分和該振動信號中的雜訊成分均由環境雜訊激勵得到,兩者之間存在較強的相關性,因此,在一些實施例中,處理器140可以基於至少一個麥克風所採集的聲音信號以及至少一個振動感測器所採集的振動信號確定該聲音信號中雜訊成分與該振動信號中雜訊成分之間的關係。
需要說明的是,在一些實施例中,該聲音信號可以由單麥克風或麥克風陣列(即多麥克風)採集得到。
在一些實施例中,處理器140可以識別出使用者未發出語音的時間區間,並從該時間區間內的聲音信號中確定反映環境雜訊的第一雜訊信號,並確定該第一雜訊信號與該時間區間內的振動信號之間的關係,然後將該第一雜訊信號與振動信號之間的關係作為使用者發出語音時聲音信號中雜訊成分與振動信號中雜訊成分之間的關係。
在一些可替代的實施例中,當該聲音信號由麥克風陣列採集得到時,處理器140可以識別出使用者發出語音的時間區間,並從該時間區間內的聲音信號中確定反映環境雜訊的第二雜訊信號,同時確定該時間區間內的振動信號中不同成分與第二雜訊信號的相關性。例如,振動信號中與第二雜訊信號的相關性高於預設閾值的成分即為雜訊,而與第二雜訊信號相關性低於預設閾值的成分可以作為使用者語音。
在一些實施例中,當該聲音信號由單麥克風採集得到時,處理器140可以將該聲音信號以及該振動信號由時域信號轉換為頻域信號,並獲得至少一個頻域子帶上該聲音信號中雜訊成分與該振動信號中雜訊成分的雜訊關係。在一些實施例中,該聲音信號中雜訊成分與該振動信號中雜訊成分的雜訊關係可以表示為兩者之間的功率比值或信號譜比值。關於根據單麥克風採集得到的聲音信號確定雜訊關係的更多細節可以參照本說明書中的其他位置(例如圖4部分及其相關論述),此處暫不對其進行詳細說明。
步驟240,至少基於所述關係對所述振動信號進行降噪處理,以得到目標振動信號。
在一些實施例中,在獲得聲音信號中雜訊成分與振動信號中雜訊成分的雜訊關係之後,處理器140可以基於該雜訊關係以及聲音信號中的雜訊成分,對該振動信號進行降噪處理後得到目標振動信號,即經過降噪處理後得到的乾淨的振動信號。
例如,處理器140可以根據使用者未發出語音時的雜訊關係,以及使用者發出語音時聲音信號中的雜訊成分(例如,根據麥克風陣列獲得的聲音信號確定),確定使用者發出語音時振動信號中的雜訊成分,並進一步從使用者發出語音時的振動信號中去除該雜訊成分後即可獲得目標振動信號。再例如,處理器140可以根據使用者未發出語音時的雜訊關係,獲得至少一個頻域子帶上聲音信號中雜訊成分與振動信號中雜訊成分的雜訊關係,並進一步根據特定頻域子帶對應的雜訊關係以及使用者發出聲音時該特定頻域子帶的雜訊成分,從使用者發出聲音時的振動信號中去除該雜訊成分。
關於確定聲音信號中雜訊成分與振動信號中雜訊成分之間的關係,以及對振動信號進行降噪的更多技術細節可以參照本說明書的其他位置(例如圖4、圖9、圖10部分及其相關論述),此處暫不對其進行詳細說明。
圖3是根據本說明書一些實施例所提供的信號處理系統的模組示意圖。
參照圖3,在一些實施例中,信號處理系統300可以包括語音活動偵測器341和振動感測器雜訊抑制器342。
在一些實施例中,語音活動偵測器341和振動感測器雜訊抑制器342可以是處理器140的一部分。語音活動偵測器341可以用於識別麥克風310採集得到的聲音信號以及振動感測器330採集得到的振動信號中包含使用者語音的信號段。換句話說,語音活動偵測器341可以識別出使用者是否說話。振動感測器雜訊抑制器342可以用於確定前述振動信號中雜訊成分與聲音信號中雜訊成分之間的關係,並基於該關係對振動信號中包含使用者語音的信號段進行降噪處理,得到目標振動信號。
在一些實施例中,語音活動偵測器341可以採用機器學習模型對聲音信號和振動信號中的使用者語音進行識別。在一些實施例中,可以利用資料樣本對機器學習模型進行訓練,從而使得該機器學習模型獲得識別使用者語音特徵,並將使用者語音從聲音信號或振動信號中識別出來的能力。這裡所述的資料樣本可以包括正資料樣本和負資料樣本。正資料樣本可以包括一組包含使用者語音的聲音信號樣本和振動信號樣本,負資料樣本可以包括一組不包含使用者語音的聲音信號樣本和振動信號樣本。
在一些實施例中,語音活動偵測器341可以根據其接收到的聲音信號和/或振動信號來判斷使用者是否說話。例如,考慮到使用者說話與否會影響到振動感測器所產生信號的強弱,語音活動偵測器341可以根據振動信號的強弱來判斷使用者是否說話。當振動信號的強度超過第一閾值時,語音活動偵測器341判斷該對應時刻使用者在說話。或者,當振動信號的強度變化超過第二閾值時,語音活動偵測器341判斷使用者在該對應時刻開始說話。再例如,語音活動偵測器341可以根據振動信號和聲音信號之間的比例來判斷使用者是否說法。當振動信號和聲音信號之間的強度比例超過第三閾值時,語音活動偵測器341判斷該對應時刻使用者在說話。可選地,在確定振動信號和聲音信號之間的比例之前,語音活動偵測器341(或者其它類似元件)可以對振動信號和/或聲音信號進行降噪處理。
圖4是根據本說明書一些實施例所提供的信號處理系統中振動感測器雜訊抑制器的結構示意圖。參照圖4,在一些實施例中,振動感測器雜訊抑制器342可以包括雜訊關係計算器4421、環境雜訊抑制器4422。
在一些實施例中,語音活動偵測器341的輸出結果可以作為雜訊關係計算器4421以及環境雜訊抑制器4422的輸入。具體而言,在一些實施例中,雜訊關係計算器4421可以基於該聲音信號及該振動信號中不包含使用者語音的信號段(即雜訊段,以VAD=0表示),確定該聲音信號中雜訊成分與該振動信號中雜訊成分之間的關係。由於在不包含使用者語音的時間段內,振動信號和聲音信號都僅包含雜訊成分,此時聲音信號中雜訊成分與該振動信號中雜訊成分之間的關係即等同於聲音信號與振動信號之間的關係。環境雜訊抑制器4422可以基於上述聲音信號中雜訊成分與該振動信號中雜訊成分之間的關係對振動信號中包含使用者語音的信號段(即語音段,以VAD=1表示)進行降噪處理,得到目標振動信號。
為方便理解,以下以單麥克風採集得到的聲音信號進行說明。當使用者未說話(即,VAD=0)時,麥克風採集得到的聲音信號可以表示為:
,(1)
振動感測器在同一時刻採集得到的振動信號可以表示為:
,(2)
此時,振動信號的雜訊成分和聲音信號中雜訊成分之間的關係
可以表示為:
,(3)
在一些實施例中,當語音活動偵測器341未偵測到使用者語音時,雜訊關係計算器4421可以對
進行即時更新。當語音活動偵測器341偵測到當前信號包含使用者語音信號時,雜訊關係計算器4421停止更新振動信號與聲音信號之間的雜訊關係。在一些實施例中,雜訊關係計算器4421對所述雜訊關係的更新頻率與雜訊大小有關。當雜訊較小時,雜訊關係
更新較慢,或者可以停止更新。
環境雜訊抑制器4422可以用來抑制使用者說話時振動信號中的環境雜訊成分。在一些實施例中,環境雜訊抑制器4422的輸入信號可以包括振動信號、聲音信號、最新更新的雜訊關係以及語音活動偵測器341的輸出信號。在一些實施例中,在同時存在使用者語音和環境雜訊的情況下,振動信號可以表示為:
,(4)
其中
表示振動感測器接收到的使用者語音,
表示振動感測器接收到的環境雜訊。類似地,在同時存在使用者語音和環境雜訊的情況下,聲音信號在雜訊環境下可以表示為:
,(5)
其中
可以表示麥克風接收到的使用者語音,
可以表示麥克風接收到的環境雜訊。振動感測器和麥克風接收到的環境雜訊之間的關係可以近似表示為:
,(6)
在一些實施例中,可以將上述聲音信號和振動信號轉換到頻域,具體地,轉換後的振動信號表示為:
,(7)
其中
表示振動感測器接收到的使用者語音的頻域分佈,
表示振動感測器接收到的環境雜訊信號的頻域分佈。轉換後的聲音信號可以表示為:
,(8)
其中
表示麥克風接收到的使用者語音的頻域分佈,
表示麥克風接收到的環境雜訊信號的頻域分佈。振動感測器接收到的環境雜訊信號和麥克風接收到的環境雜訊之間的關係可以表示為:
,(9)
其中H(ω)為公式(3)中雜訊關係
的頻域表達,其表示聲音信號中的雜訊成分與振動信號中的雜訊成分在頻域上的雜訊關係。
在一些實施例中,考慮到在低於一定頻率範圍,例如低於3000 Hz時,麥克風接收到的聲音信號的信號雜訊比要小於振動感測器所接收到的振動信號的信號雜訊比(更多關於聲音信號和振動信號的信號雜訊比描述請參見圖12),這時可以將麥克風採集得到的聲音信號近似作為雜訊信號的估計,即:
Y(ω)≈N
Y(ω),(10)
進一步地,根據公式(7)、公式(9)和公式(10),降噪後的振動信號的頻域表達可以表示為:
,(11)
其中,各參數所表示的含義可以參照前文,此處不再進行贅述。
在一些實施例中,語音活動偵測器341可以作為一啟動開關。在偵測到該聲音信號及該振動信號中不包含使用者語音時(即VAD=0時),可以啟動雜訊關係計算器4421更新二者之間的雜訊關係,關閉環境雜訊抑制器4422;在偵測到該聲音信號及該振動信號中包含使用者語音時(即VAD=1時),則停止更新二者之間的雜訊關係,啟動環境雜訊抑制器4422對該振動信號進行降噪處理。通過該方法對雜訊關係計算器4421以及環境雜訊抑制器4422的工作狀態進行控制,可以避免雜訊關係計算器4421和環境雜訊抑制器4422造成非必要的處理資源佔用,從而在一定程度降低處理器的計算負荷。
繼續參照圖4,在一些實施例中,振動感測器雜訊抑制器342還可以包括穩態雜訊抑制器4423。穩態雜訊抑制器4423可以用於消除振動感測器產生的信號中的穩態雜訊(例如,雜訊基底等)。在一些實施例中,振動感測器採集得到的振動信號中會存在雜訊基底(又稱為背景雜訊),在特定的頻率範圍內,該雜訊基底會嚴重影響語音信號。具體來說,在使用振動感測器採集使用者語音時,由於皮膚、骨骼對語音的傳遞具有低通濾波的效果,因此振動感測器能夠接收到的高頻語音信號較少,其產生的振動信號中語音信號的高頻成分也較少。圖5是根據本說明書一些實施例所提供的振動感測器產生的振動信號的頻譜示意圖。參照圖5,虛線框501部分可以表示振動感測器產生的振動信號所對應的時域信號,虛線框502部分可以表示其對應的頻域信號,在有語音信號對應的時段(例如虛線框503所示部分),其頻域信號在1 kHz以下的信號強度較強,在較高頻率處(例如2 kHz以上)的信號強度較弱。從圖5可以看出,振動感測器接收到的人說話時的信號中,低頻成分較多,而高頻成分較少。
在振動信號中使用者語音信號較小的頻段,例如2kHz – 8 kHz的範圍內,振動感測器所採集的使用者語音信號相比於雜訊基底的信號雜訊比較小,這時可以通過穩態雜訊抑制器4423對振動感測器所採集的振動信號進行處理,降低其雜訊基底對其中的使用者語音信號的影響。在一些實施例中,穩態雜訊抑制器4423可以採用,例如譜減法、維納濾波器、自我調整濾波器等方法或器件進行雜訊基底的消除。
圖6是根據本說明書一些實施例所提供的雜訊環境下振動感測器產生的振動信號的頻譜示意圖。從圖6可以看出,語音信號(即使用者發出的聲音所對應的信號)在1000 Hz以內受到雜訊信號的干擾很小,信號較為清晰;語音信號在1000 Hz – 1500 Hz受到雜訊信號的影響相對較小,但信號雜訊比小於1000 Hz以內的情況;語音信號在1500 Hz以上時受到雜訊的影響較大,語音信號基本上被雜訊信號“淹沒”。這一方面是因為頻率越高,振動感測器接收到的語音信號越小;另一方面是因為振動感測器更容易接收高頻的環境雜訊信號。
圖7是根據本說明書另一些實施例所提供的信號處理系統的模組示意圖。如圖7所示,在一些實施例中,系統500可以包括麥克風信號雜訊抑制器543,該麥克風信號雜訊抑制器543可以用於對至少一個麥克風510所採集的聲音信號進行降噪,得到乾淨的氣導語音信號。如圖7所示,語音活動偵測器541的輸出信號和麥克風510產生的聲音信號可以同時作為麥克風信號雜訊抑制器543的輸入信號。在一些實施例中,麥克風信號雜訊抑制器543可以基於語音活動偵測器541的識別結果,僅對麥克風510所採集的聲音信號中包含使用者語音的信號段進行處理。例如,當語音活動偵測器541判斷出使用者在說話時,麥克風信號雜訊抑制器543會對麥克風510輸出的聲音信號進行降噪,產生目標聲音信號。
繼續參照圖7,在一些實施例中,系統500還可以包括頻譜混疊器544。頻譜混疊器544可以用於將經過振動感測器雜訊抑制器542處理得到的目標振動信號與經過麥克風信號雜訊抑制器543處理得到的目標聲音信號進行頻譜混疊處理。例如,頻譜混疊器544可以將目標振動信號中部分成分(例如,低頻部分)與目標聲音信號中部分成分(例如,高頻部分)相混疊,從而組成全頻帶的目標信號。在一些實施例中,目標振動信號中用於混疊的部分的頻率小於目標聲音信號中用於混疊的部分的頻率。在一些實施例中,目標振動信號中用於混疊的部分的最高頻率等於或大於目標聲音信號中用於混疊的部分的最小頻率。
在一些實施例中,目標振動信號的頻率範圍與目標聲音信號的頻率範圍可以存在交疊部分。例如,目標振動信號的頻率範圍可以在0 Hz – 2000 Hz之間,目標聲音信號的頻率範圍可以在1000 Hz – 8000 Hz之間。又例如,目標振動信號的頻率範圍可以在0 Hz – 2000 Hz之間,目標聲音信號的頻率範圍可以在0 Hz – 10 kHz之間。可選地,頻譜混疊器544可以包括一個或多個濾波電路,用於在混頻前對目標振動信號和/或目標聲音信號的混疊部分進行過濾。需要說明,以上資料僅為示例性說明,在一些實施例中,目標振動信號和目標聲音信號的頻率範圍可以是,但不限於上述數值範圍。
需要說明的是,圖7所示的信號處理系統相較於圖3增加了麥克風信號雜訊抑制器543和頻譜混疊器544,其共同部分可以參照圖3部分的相關描述,例如,關於語音活動偵測器541的更多技術細節可以參照圖3中的語音活動偵測器341,此處不再進行贅述。
圖8是根據本說明書一些實施例所提供的方法對圖6所示的信號進行處理後得到的信號頻譜示意圖。虛線框801部分可以表示對振動感測器產生的振動信號進行處理後所得到的時域信號,虛線框802部分可以表示對其進行處理後所得到的頻域信號。
相比於圖6,從圖8可以看出,上述處理方法對於1500 Hz – 4000 Hz的雜訊具有明顯的降噪效果。經過上述方法處理得到的目標信號,不僅可以將低頻(例如0-1000Hz)的使用者語音信號保留下來,還可以對中高頻(例如1500-4000Hz)的振動信號進行降噪,得到高信號雜訊比的目標信號。
圖9是根據本說明書另一些實施例所提供的信號處理系統的模組示意圖。如圖9所示,在一些實施例中,系統600可以包括雜訊信號產生器643,該雜訊信號產生器643可以是處理器的一部分。在一些實施例中,由於麥克風陣列610中各麥克風相對於聲源的方向存在一定差異,而該差異將會導致麥克風陣列610中不同麥克風採集到的聲音信號幅度和/或相位產生一定的區別,基於該原理,雜訊信號產生器643可以根據麥克風陣列610中各麥克風之間的相對位置關係從其採集的聲音信號中確定第一雜訊信號。在一些實施例中,第一雜訊信號可以是環境中特定方向的雜訊信號。例如,第一雜訊信號可以是環境中除了使用者語音方向以外其它所有方向的雜訊合成的雜訊信號。需要說明的是,圖9所示的信號處理系統與圖3所示系統的共同部分可以參照圖3的相關描述,例如,關於語音活動偵測器641的更多技術細節可以參照圖3中的語音活動偵測器341,此處不再進行贅述。
進一步地,在一些實施例中,振動感測器雜訊抑制器642可以根據本說明書中其它地方描述的方法確定該第一雜訊信號與振動感測器630採集得到的振動信號之間的關係,並基於該關係對振動信號進行降噪處理。
在一些實施例中,當振動感測器雜訊抑制器642基於該第一雜訊信號與振動感測器630採集得到的振動信號確定二者之間的關係時,若當前無使用者語音,僅存在雜訊,振動信號可以表示為
,第一雜訊信號可以表示為
,兩者之間的關係可以表示為:
,(12)
其中
即為計算的得到的雜訊關係。
在一些實施例中,若當前同時存在使用者語音和雜訊,則振動信號在雜訊環境下可以表示為:
,(13)
其中
表示使用者語音,
表示振動感測器接收到的環境雜訊。由於振動感測器接收到的環境雜訊
與上述第一雜訊信號之間的關係近似為:
,(14)
此時,根據公式(13)和(14),可以從振動信號中去除環境雜訊,得到乾淨的使用者語音信號。
在一些可替代的實施例中,振動感測器雜訊抑制器642可以將振動信號中與雜訊信號相關性高於預設閾值(例如60%、80%、90%等)的成分作為雜訊,將振動信號中與雜訊信號相關性低於預設閾值的成分作為使用者語音。
例如,振動感測器雜訊抑制器642可以識別出使用者發出語音的時間區間,並從該時間區間內的聲音信號中確定反映環境雜訊的第二雜訊信號(例如,通過上述麥克風陣列識別來自不同於使用者嘴巴方向的聲音),同時確定該時間區間內的振動信號中不同成分與第二雜訊信號的相關性。例如,振動信號中與第二雜訊信號的相關性高於預設閾值的成分即為雜訊,而與第二雜訊信號相關性低於預設閾值的成分可以作為使用者語音。
圖10是根據本說明書另一些實施例所提供的信號處理系統的模組示意圖。
如圖10所示,在一些實施例中,系統700可以包括雜訊信號產生器743及語音信號產生器744,該雜訊信號產生器743及語音信號產生器744可以是處理器140的一部分。雜訊信號產生器743可以根據麥克風陣列710中各麥克風之間的相對位置關係從其採集的聲音信號中確定第一雜訊信號;類似地,語音信號產生器744可以根據麥克風陣列710中各麥克風之間的相對位置關係從其採集的聲音信號中確定第一語音信號。在一些實施例中,第一雜訊信號可以表示麥克風陣列710採集得到的環境中特定方向的雜訊。例如,第一雜訊信號可以是環境中除了使用者語音方向以外其它所有方向的雜訊合成的雜訊信號。第一語音信號可以表示麥克風陣列710採集得到的聲音信號中來自使用者嘴巴方向的聲音,即使用者語音。
在一些實施例中,當麥克風陣列710是波束形成的麥克風陣列時,第一雜訊信號可以為雜訊波束的信號,當麥克風陣列710是其他類型的陣列時,第一雜訊信號可以是其他方法計算得到的雜訊。同理地,在一些實施例中,當麥克風陣列710是波束形成的麥克風陣列時,第一語音信號可以為語音波束的信號,當麥克風陣列710是其他類型的陣列時,第一語音信號可以是其他方法計算得到的語音信號。
在一些實施例中,系統700還可以包括麥克風信號雜訊抑制器742,該麥克風信號雜訊抑制器742可以是處理器的一部分。在一些實施例中,麥克風信號雜訊抑制器742可以基於第一雜訊信號和第一語音信號對麥克風陣列710採集得到的語音信號進行降噪處理,得到目標語音信號,例如,麥克風信號雜訊抑制器742可以對該第一語音信號進行進一步處理,從該第一語音信號中去除與該第一雜訊信號存在相同特徵的成分,從而得到目標語音信號。在一些可替換的實施例中,麥克風信號雜訊抑制器742可以直接將上述第一語音信號作為目標語音信號。
在一些實施例中,麥克風信號雜訊抑制器742處理得到的目標語音信號可以與可以振動感測器雜訊抑制器642處理得到的目標振動信號進行混疊,從而組成全頻帶的目標信號。在一些實施例中,該目標振動信號中用於混疊的部分的頻率小於該目標聲音信號中用於混疊的部分的頻率。在一些實施例中,目標振動信號中用於混疊的部分的最高頻率等於或大於目標聲音信號中用於混疊的部分的最小頻率。
在一些實施例中,語音活動偵測器741的輸出信號可以作為麥克風信號雜訊抑制器742的輸入信號。語音活動偵測器741的輸入信號可以包括麥克風陣列710採集的聲音信號以及振動感測器730採集得到的振動信號。具體而言,即麥克風信號雜訊抑制器742可以基於語音活動偵測器741的識別結果,僅針對麥克風陣列710所採集的聲音信號中包含使用者語音的信號段進行降噪處理。需要說明的是,圖10所示的信號處理系統與圖9所示系統的共同部分可以參照圖9的相關描述,例如,關於語音活動偵測器741的更多技術細節可以參照圖9中的語音活動偵測器641,此處不再進行贅述。
考慮到使用麥克風估計雜訊時,麥克風陣列能夠較好地估計使用者語音來源方向(即使用者嘴巴方向)以外其它方向的雜訊,但難以得到與使用者語音來源方向接近或相同的雜訊;而使用單個麥克風信號作為雜訊估計時,雖然處理的雜訊能夠包括使用者嘴巴方向,但其只能在信號雜訊比低於振動感測器的頻段做處理,無法為其他頻段降噪。因此,在一些實施例中,可以將麥克風陣列降噪和單麥克風降噪這兩種方式進行結合,以達到更好的降噪效果。
圖11是根據本說明書另一些實施例所提供的信號處理系統的模組示意圖。
如圖11所示,在一些實施例中,為了結合麥克風陣列降噪和單麥克風降噪的優勢,系統800可以加入雜訊混合器8424。該雜訊混合器8424可以是處理器140的一部分。在一些實施例中,雜訊混合器8424的輸入信號可以包括一個麥克風所採集的麥克風信號。例如,所述雜訊信號可以來源於圖9中雜訊信號產生器643所產生的第一雜訊信號。所述麥克風信號可以來源於圖9中麥克風陣列610中其中一個麥克風的輸出信號,或者圖7中麥克風510的輸出信號。在一些實施例中,雜訊混合器8424可以將所述雜訊信號與所述麥克風信號進行混合,產生聲音信號。所述聲音信號相較於圖4中輸入雜訊關係計算器的聲音信號而言,可以更準確地體現出雜訊特徵,從而能夠提高雜訊估計的準確性。
進一步地,繼續參照圖11,雜訊關係計算器8421可以基於至少一個振動感測器採集的振動信號與前述雜訊混合器8424產生的聲音信號中不包含使用者語音的信號段(即VAD=0的雜訊段),確定二者之間的雜訊關係。
需要說的是,通過增加雜訊混合器8424,可以使得混合後的聲音信號相比於第一雜訊信號增加了與使用者語音相同方向的雜訊,而相比於雜訊信號又減少了使用者語音信號,其結果優於單獨使用雜訊信號或單獨使用麥克風信號,可以得到一個更加可靠的雜訊估計,提高雜訊估計的準確性。
在一些實施例中,雜訊信號與麥克風信號的混合方式可以是固定的比例,也可以是其他方法。在一些實施例中,雜訊混合器8424可以獲取來自使用者語音方向的雜訊量級,並基於該雜訊量級確定雜訊信號與麥克風信號的混合比例。例如,與使用者語音相同方向的雜訊聲音越大,麥克風信號的混合比例越多。
需要說明的是,圖11所示的信號處理系統與圖4所示系統的共同部分可以參照圖4的相關描述,例如,關於環境雜訊抑制器8422和穩態雜訊抑制器8423的更多技術細節可以參照圖4中的環境雜訊抑制器4422和穩態雜訊抑制器4423,此處不再進行贅述。
圖12是根據本說明書一些實施例所提供的信號頻率-信號雜訊比曲線示意圖。
需要知道的是,麥克風接收到的聲音信號的信號雜訊比不同於振動感測器所接收到的振動信號的信號雜訊比。如圖12所示,在小於3000 Hz的頻率範圍內,振動感測器的信號雜訊比大於麥克風的信號雜訊比;在4000 Hz – 8000 Hz的頻率範圍內,振動感測器的信號雜訊比小於麥克風的信號雜訊比。麥克風和振動感測器的信號雜訊比在3000 Hz – 4000 Hz的範圍內交疊。在一些實施例中,可以在較低的頻率範圍內(例如,小於3000 Hz)將麥克風採集到的聲音信號近似作為雜訊信號的估計。考慮到振動信號的信號雜訊比隨著頻率的升高而降低,在一些實施例中,在對目標聲音信號和目標振動信號進行頻譜混疊時,目標振動信號中用於混疊的部分的最高頻率可以設為不高於3000 Hz但不小於1000 Hz。優選地,目標振動信號中用於混疊的部分的最高頻率可以設為不高於2500 Hz但不小於1500 Hz。更優選地,目標振動信號中用於混疊的部分的最高頻率可以設為不高2000 Hz但不小於1000 Hz。
需要說明的是,以上對於振動感測器和麥克風的信號雜訊比的描述僅作為說明的目的,在一些實施例中,當振動感測器位置或麥克風位置改變時兩者的信號雜訊比對比存在差別,信號雜訊比交疊的位置也會發生變化。
本說明書實施例還提供一種電腦可讀取儲存媒體,該儲存媒體儲存電腦指令,當電腦讀取儲存媒體中的電腦指令後,電腦實現前述的信號處理方法對應的操作。
需要說明,上述儲存媒體可以是上述電子設備、處理器或伺服器中所包含的;也可以是單獨存在,而未裝配入該電子設備、處理器或伺服器中的。
上文已對基本概念做了描述,顯然,對於所屬技術領域中具有通常知識者來說,上述詳細揭露內容僅僅作為示例,而並不構成對本發明的限定。雖然此處並沒有明確說明,所屬技術領域中具有通常知識者可以對本發明進行各種修改、改進和修正。該類修改、改進和修正在本發明中被建議,所以該類修改、改進、修正仍屬於本發明示範實施例的精神和範圍。
同時,本說明書使用了特定詞語來描述本說明書的實施例。如“一個實施例”、“一實施例”、和/或“一些實施例”意指與本說明書至少一個實施例相關的某一特徵、結構或特點。因此,應強調並注意的是,本說明書中在不同位置兩次或多次提及的“一實施例”或“一個實施例”或“一個替代性實施例”並不一定是指同一實施例。此外,本說明書的一個或多個實施例中的某些特徵、結構或特點可以進行適當的組合。
此外,所屬技術領域中具有通常知識者可以理解,本說明書的各個態樣可以通過若干具有可專利性的種類或情況進行說明和描述,包括任何新的和有用的流程、機器、產品或物質的組合,或對他們的任何新的和有用的改進。相應地,本說明書的各個態樣可以完全由硬體執行、可以完全由軟體(包括韌體、常駐軟體、微碼等)執行、也可以由硬體和軟體組合執行。以上硬體或軟體均可被稱為“資料塊”、“模組”、“引擎”、“單元”、“元件”或“系統”。此外,本說明書的各個態樣可能表現為位於一個或多個電腦可讀取媒體中的電腦產品,該產品包括電腦可讀取程式碼。
電腦儲存媒體可能包含一個內含有電腦程式碼的傳播資料信號,例如在基帶上或作為載波的一部分。該傳播信號可能有多種表現形式,包括電磁形式、光形式等,或合適的組合形式。電腦儲存媒體可以是除電腦可讀取儲存媒體之外的任何電腦可讀取媒體,該媒體可以通過連接至一個指令執行系統、裝置或設備以實現通訊、傳播或傳輸供使用的程式。位於電腦儲存媒體上的程式碼可以通過任何合適的媒體進行傳播,包括無線電、電纜、光纖電纜、RF、或類似媒體,或任何上述媒體的組合。
本說明書各部分操作所需的電腦程式碼可以用任意一種或多種程式語言編寫,包括物件導向程式設計語言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常規程式化程式設計語言如C語言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,動態程式設計語言如Python、Ruby和Groovy,或其他程式設計語言等。該程式碼可以完全在使用者電腦上運行、或作為獨立的套裝軟體在使用者電腦上運行、或部分在使用者電腦上運行部分在遠端電腦運行、或完全在遠端電腦或伺服器上運行。在後種情況下,遠端電腦可以通過任何網路形式與使用者電腦連接,比如區域網(LAN)或廣域網路(WAN),或連接至外部電腦(例如通過網際網路),或在雲端計算環境中,或作為服務使用如軟體即服務(Software as a Service, SaaS)。
此外,除非申請專利範圍中明確說明,本說明書所述處理元素和序列的順序、數字字母的使用、或其他名稱的使用,並非用於限定本說明書流程和方法的順序。儘管上述揭露內容中通過各種示例討論了一些目前認為有用的發明實施例,但應當理解的是,該類細節僅起到說明的目的,附加的申請專利範圍並不僅限於揭露的實施例,相反地,申請專利範圍旨在覆蓋所有符合本說明書實施例實質和範圍的修正和等價組合。例如,雖然以上所描述的系統元件可以通過硬體設備實現,但是也可以只通過軟體的解決方案得以實現,如在現有的伺服器或行動設備上安裝所描述的系統。
同理,應當注意的是,為了簡化本說明書揭露內容的表述,從而幫助對一個或多個發明實施例的理解,前文對本說明書實施例的描述中,有時會將多種特徵歸併至一個實施例、附圖或對其的描述中。但是,這種揭露方式並不意味著本發明的標的所需要的特徵比申請專利範圍中提及的特徵多。實際上,實施例的特徵要少於上述揭露的單個實施例的全部特徵。
一些實施例中使用了描述成分、屬性數量的數位,應當理解的是,此類用於實施例描述的數字,在一些示例中使用了修飾詞“大約”、“近似”或“大體上”來修飾。除非另外說明,“大約”、“近似”或“大體上”表明所述數字允許有±20%的變化。相應地,在一些實施例中,說明書和申請專利範圍中使用的數值參數均為近似值,該近似值根據個別實施例所需特點可以發生改變。在一些實施例中,數值參數應考慮規定的有效位數並採用一般位數保留的方法。儘管本說明書一些實施例中用於確認其範圍廣度的數值域和參數為近似值,在具體實施例中,此類數值的設定在可行範圍內盡可能精確。
針對本申請案引用的每個專利、專利申請案、專利申請案公開本和其他材料,如文章、書籍、說明書、出版物、文件等,特此將其全部內容併入本申請案作為參考。與本申請案內容不一致或產生衝突的申請歷史文件除外,對本申請案申請專利範圍最廣範圍有限制的文件(當前或之後附加於本申請案中的)也除外。需要說明的是,如果本申請案附屬材料中的描述、定義、和/或術語的使用與本說明書所述內容有不一致或衝突的地方,以本說明書的描述、定義和/或術語的使用為準。
最後,應當理解的是,本說明書中所述實施例僅用以說明本申請案實施例的原則。其他的變形也可能屬於本申請案的範圍。因此,作為示例而非限制,本說明書實施例的替代配置可視為與本申請案的教導一致。相應地,本申請案的實施例不僅限於本說明書明確介紹和描述的實施例。
110:麥克風
120:網路
130:振動感測器
140:處理器
150:記憶體
200:流程
210:步驟
220:步驟
230:步驟
240:步驟
300:信號處理系統
310:麥克風
330:振動感測器
341:語音活動偵測器
342:振動感測器雜訊抑制器
501:虛線框
502:虛線框
503:虛線框
510:麥克風
541:語音活動偵測器
542:振動感測器雜訊抑制器
543:麥克風信號雜訊抑制器
544:頻譜混疊器
600:系統
610:麥克風陣列
630:第一雜訊信號與振動感測器
641:語音活動偵測器
642:振動感測器雜訊抑制器
643:雜訊信號產生器
700:系統
710:麥克風陣列
730:振動感測器
741:語音活動偵測器
742:麥克風信號雜訊抑制器
743:雜訊信號產生器
744:語音信號產生器
800:系統
801:虛線框
802:虛線框
4421:雜訊關係計算器
4422:環境雜訊抑制器
4423:穩態雜訊抑制器
8421:雜訊關係計算器
8422:環境雜訊抑制器
8423:穩態雜訊抑制器
8424:雜訊混合器
本發明將以示例性實施例的方式進一步說明,這些示例性實施例將通過附圖進行詳細描述。這些實施例並非限制性的,在這些實施例中,相同的元件符號表示相同的結構,其中:
[圖1]係本說明書一些實施例所提供的信號處理系統的應用場景示意圖;
[圖2]係根據本說明書一些實施例所提供的信號處理方法的流程示意圖;
[圖3]係根據本說明書一些實施例所提供的信號處理系統的模組示意圖;
[圖4]係根據本說明書一些實施例所提供的信號處理系統中振動感測器雜訊抑制器的工作原理示意圖;
[圖5]係根據本說明書一些實施例所提供的振動感測器的信號頻譜示意圖;
[圖6]係根據本說明書一些實施例所提供的雜訊環境下振動感測器接收到的信號頻譜示意圖;
[圖7]係根據本說明書另一些實施例所提供的信號處理系統的模組示意圖;
[圖8]係根據本說明書一些實施例所提供的處理後得到的信號頻譜示意圖;
[圖9]係根據本說明書另一些實施例所提供的信號處理系統的模組示意圖;
[圖10]係根據本說明書另一些實施例所提供的信號處理系統的模組示意圖;
[圖11]係根據本說明書另一些實施例所提供的信號處理系統的模組示意圖;以及
[圖12]係根據本說明書另一些實施例所提供的信號頻率-信號雜訊比曲線示意圖。
200:流程
210:步驟
220:步驟
230:步驟
240:步驟
Claims (10)
- 一種信號處理系統,包括:至少一個麥克風,所述至少一個麥克風用於採集聲音信號,所述聲音信號包括使用者語音和環境雜訊中的至少一種;至少一個振動感測器,所述至少一個振動感測器用於採集振動信號,所述振動信號包括所述使用者語音和所述環境雜訊中的至少一種;以及處理器,被配置為:基於所述聲音信號和所述振動信號中不包含所述使用者語音的信號段,確定所述聲音信號中雜訊成分與所述振動信號中雜訊成分之間的關係,所述關係包括功率比值或信號譜比值;以及至少基於所述關係和所述聲音信號對所述振動信號進行降噪處理,以得到目標振動信號。
- 如請求項1之系統,其中,所述系統還包括語音活動偵測器,所述語音活動偵測器被配置為:識別所述聲音信號和所述振動信號中不包含所述使用者語音的信號段。
- 如請求項2之系統,其中,所述處理器進一步被配置為:在所述聲音信號和所述振動信號中包含所述使用者語音的信號段,基於所述關係對所述振動信號進行降噪處理,得到所述目標振動信號。
- 如請求項2之系統,其中,所述處理器還被配置為:在所述聲音信號中包含所述使用者語音的信號段,對所述聲音信號進行降噪處理,以得到目標聲音信號。
- 如請求項4之系統,其中,所述處理器進一步被配置為:將所述目標振動信號中至少部分成分與所述目標聲音信號中至少部分成分進行混疊,得到目標信號,其中,所述目標振動信號中至少部分成分的頻率小於 所述目標聲音信號中至少部分成分的頻率。
- 如請求項2之系統,其中,所述至少一個麥克風包括麥克風陣列,所述麥克風陣列包括多個麥克風;其中,基於所述聲音信號和所述振動信號中不包含所述使用者語音的信號段,確定所述聲音信號中雜訊成分與所述振動信號中雜訊成分之間的關係包括:在所述聲音信號中不包含所述使用者語音的信號段,基於所述麥克風陣列中各麥克風之間的相對位置關係從所述聲音信號中確定第一雜訊信號;以及基於所述第一雜訊信號和所述振動信號中不包含所述使用者語音的信號段,確定所述第一雜訊信號與所述振動信號之間的關係。
- 如請求項6之系統,其中,所述處理器還被配置為:在所述聲音信號中包含所述使用者語音的信號段,基於所述麥克風陣列中各麥克風之間的相對位置關係從所述聲音信號中確定第一語音信號;以及基於所述第一雜訊信號及所述第一語音信號對所述聲音信號進行降噪處理得到目標聲音信號,或將所述第一語音信號作為所述目標聲音信號。
- 如請求項1之系統,其中,所述系統還包括雜訊混合器和多個麥克風,產生所述聲音信號包括:基於所述多個麥克風之間的相對位置關係確定第一雜訊信號;獲取所述多個麥克風中至少一個目標麥克風所採集的麥克風信號;以及獲取來自所述使用者語音的方向的雜訊量級,並基於所述雜訊量級確定所述第一雜訊信號與所述麥克風信號的混合比例,其中,所述混合比例與所述使用者語音的方向的所述雜訊量級成正比;由所述雜訊混合器基於所述混合比例將所述第一雜訊信號與所述麥克風信號進行混合,產生所述聲音信號。
- 一種信號處理方法,包括: 由至少一個麥克風採集聲音信號,所述聲音信號包括使用者語音和環境雜訊中的至少一種;由至少一個振動感測器採集振動信號,所述振動信號包括所述使用者語音和所述環境雜訊中的至少一種;基於所述聲音信號和所述振動信號中不包含所述使用者語音的信號段,確定所述聲音信號中雜訊成分與所述振動信號中雜訊成分之間的關係,所述關係包括功率比值或信號譜比值;以及至少基於所述關係和所述聲音信號對所述振動信號進行降噪處理,以得到目標振動信號。
- 一種電子設備,包括至少一個處理器以及至少一個記憶體,其中:所述至少一個記憶體用於儲存電腦指令;所述至少一個處理器用於執行所述電腦指令中的至少部分指令以實施請求項9所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/081927 WO2022193327A1 (zh) | 2021-03-19 | 2021-03-19 | 信号处理系统、方法、装置及存储介质 |
WOPCT/CN2021/081927 | 2021-03-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202238567A TW202238567A (zh) | 2022-10-01 |
TWI823346B true TWI823346B (zh) | 2023-11-21 |
Family
ID=83283983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111114511A TWI823346B (zh) | 2021-03-19 | 2022-04-15 | 信號處理系統、方法、裝置及儲存媒體 |
Country Status (4)
Country | Link |
---|---|
US (1) | US12119015B2 (zh) |
CN (1) | CN115989681A (zh) |
TW (1) | TWI823346B (zh) |
WO (1) | WO2022193327A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112022016306A2 (pt) * | 2021-08-11 | 2024-02-27 | Shenzhen Shokz Co Ltd | Sistemas e métodos para controle de terminal |
CN117493776B (zh) * | 2023-12-29 | 2024-03-01 | 云南省地矿测绘院有限公司 | 地球物理勘探数据去噪方法、装置和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140363020A1 (en) * | 2013-06-07 | 2014-12-11 | Fujitsu Limited | Sound correcting apparatus and sound correcting method |
TW201642655A (zh) * | 2015-04-21 | 2016-12-01 | Vid衡器股份有限公司 | 基於藝術意向之視訊編碼 |
US20180068671A1 (en) * | 2016-09-08 | 2018-03-08 | The Regents Of The University Of Michigan | System and method for authenticating voice commands for a voice assistant |
US20210241782A1 (en) * | 2020-01-31 | 2021-08-05 | Bose Corporation | Personal Audio Device |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590529B2 (en) * | 2005-02-04 | 2009-09-15 | Microsoft Corporation | Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement |
US8290545B2 (en) | 2008-07-25 | 2012-10-16 | Apple Inc. | Systems and methods for accelerometer usage in a wireless headset |
US8285208B2 (en) | 2008-07-25 | 2012-10-09 | Apple Inc. | Systems and methods for noise cancellation and power management in a wireless headset |
DK2555189T3 (en) * | 2010-11-25 | 2017-01-23 | Goertek Inc | Speech enhancement method and device for noise reduction communication headphones |
US9313572B2 (en) | 2012-09-28 | 2016-04-12 | Apple Inc. | System and method of detecting a user's voice activity using an accelerometer |
CN103208291A (zh) * | 2013-03-08 | 2013-07-17 | 华南理工大学 | 一种可用于强噪声环境的语音增强方法及装置 |
US9363596B2 (en) | 2013-03-15 | 2016-06-07 | Apple Inc. | System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device |
US9516159B2 (en) | 2014-11-04 | 2016-12-06 | Apple Inc. | System and method of double talk detection with acoustic echo and noise control |
US9997173B2 (en) | 2016-03-14 | 2018-06-12 | Apple Inc. | System and method for performing automatic gain control using an accelerometer in a headset |
US20170365249A1 (en) | 2016-06-21 | 2017-12-21 | Apple Inc. | System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector |
US10090001B2 (en) | 2016-08-01 | 2018-10-02 | Apple Inc. | System and method for performing speech enhancement using a neural network-based combined symbol |
CN106686494A (zh) * | 2016-12-27 | 2017-05-17 | 广东小天才科技有限公司 | 一种可穿戴设备的语音输入控制方法及可穿戴设备 |
CN109346075A (zh) | 2018-10-15 | 2019-02-15 | 华为技术有限公司 | 通过人体振动识别用户语音以控制电子设备的方法和系统 |
CN110931027B (zh) * | 2018-09-18 | 2024-09-27 | 北京三星通信技术研究有限公司 | 音频处理方法、装置、电子设备及计算机可读存储介质 |
-
2021
- 2021-03-19 WO PCT/CN2021/081927 patent/WO2022193327A1/zh active Application Filing
- 2021-03-19 CN CN202180048143.8A patent/CN115989681A/zh active Pending
-
2022
- 2022-01-30 US US17/649,362 patent/US12119015B2/en active Active
- 2022-04-15 TW TW111114511A patent/TWI823346B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140363020A1 (en) * | 2013-06-07 | 2014-12-11 | Fujitsu Limited | Sound correcting apparatus and sound correcting method |
TW201642655A (zh) * | 2015-04-21 | 2016-12-01 | Vid衡器股份有限公司 | 基於藝術意向之視訊編碼 |
US20180068671A1 (en) * | 2016-09-08 | 2018-03-08 | The Regents Of The University Of Michigan | System and method for authenticating voice commands for a voice assistant |
US20210241782A1 (en) * | 2020-01-31 | 2021-08-05 | Bose Corporation | Personal Audio Device |
Also Published As
Publication number | Publication date |
---|---|
WO2022193327A1 (zh) | 2022-09-22 |
US12119015B2 (en) | 2024-10-15 |
CN115989681A (zh) | 2023-04-18 |
US20220301574A1 (en) | 2022-09-22 |
TW202238567A (zh) | 2022-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI823346B (zh) | 信號處理系統、方法、裝置及儲存媒體 | |
US9892721B2 (en) | Information-processing device, information processing method, and program | |
RU2595636C2 (ru) | Система и способ для генерации аудиосигнала | |
US10553236B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
TWI543149B (zh) | 雜訊消除方法 | |
CN111149369A (zh) | 头戴式受话器耳上状态检测 | |
US10755728B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
CN108235181B (zh) | 在音频处理装置中降噪的方法 | |
JP2012253771A (ja) | 特に「ハンズフリー」電話システム用の、小数遅延フィルタリングにより音声信号のノイズ除去を行うための手段を含むオーディオ装置 | |
CN110931007B (zh) | 语音识别方法及系统 | |
CN109087660A (zh) | 用于回声消除的方法、装置、设备以及计算机可读存储介质 | |
KR20220062598A (ko) | 오디오 신호 생성을 위한 시스템 및 방법 | |
JP5027127B2 (ja) | 背景雑音に応じてバイブレータの動作を制御することによる移動通信装置の音声了解度の向上 | |
JP2023551556A (ja) | エコーの抑制のためのオーディオ信号処理方法及びシステム | |
CN107452398B (zh) | 回声获取方法、电子设备及计算机可读存储介质 | |
CN115499744A (zh) | 耳机降噪方法及装置、计算机可读存储介质及耳机 | |
WO2022198538A1 (zh) | 主动降噪音频设备和用于主动降噪的方法 | |
KR102562180B1 (ko) | 웨어러블 음향 변환 장치 | |
WO2022141364A1 (zh) | 生成音频的方法和系统 | |
CN117392994B (zh) | 一种音频信号处理方法、装置、设备及存储介质 | |
JP2018063400A (ja) | 音声処理装置及び音声処理プログラム | |
JP2023552363A (ja) | オーディオノイズ低減方法及びシステム | |
CN118158594A (zh) | 音频处理方法、装置、音频播放设备以及存储介质 | |
WO2024033019A1 (en) | Audio signal processing method and system for echo mitigation using an echo reference derived from an internal sensor | |
CN116778942A (zh) | 电子设备及其语音降噪方法和介质 |