TWI678696B - 語音資訊的接收方法、系統及裝置 - Google Patents

語音資訊的接收方法、系統及裝置 Download PDF

Info

Publication number
TWI678696B
TWI678696B TW105119634A TW105119634A TWI678696B TW I678696 B TWI678696 B TW I678696B TW 105119634 A TW105119634 A TW 105119634A TW 105119634 A TW105119634 A TW 105119634A TW I678696 B TWI678696 B TW I678696B
Authority
TW
Taiwan
Prior art keywords
voice
voice signal
target
signal
sound source
Prior art date
Application number
TW105119634A
Other languages
English (en)
Other versions
TW201801069A (zh
Inventor
張玉
Yu Zhang
Original Assignee
鴻海精密工業股份有限公司
Hon Hai Precision Industry Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鴻海精密工業股份有限公司, Hon Hai Precision Industry Co., Ltd. filed Critical 鴻海精密工業股份有限公司
Publication of TW201801069A publication Critical patent/TW201801069A/zh
Application granted granted Critical
Publication of TWI678696B publication Critical patent/TWI678696B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/19Arrangements of transmitters, receivers, or complete sets to prevent eavesdropping, to attenuate local noise or to prevent undesired transmission; Mouthpieces or receivers specially adapted therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/22Source localisation; Inverse modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本發明所提供的語音資訊的接收方法包括步驟:利用麥克風陣列採集一第一語音資訊並將採集到的第一語音資訊轉化為一第一語音信號及利用一攝像單元採集一使用者的多個嘴部圖像;將第一語音信號與一預設的語音信號進行比較,並根據比較結果確定一目標語音信號;獲取麥克風陣列中的不同麥克風採集目標語音信號的延遲時間;根據所獲取的延遲時間,計算目標語音信號的聲源的位置;利用所述麥克風陣列採集一第二語音資訊並將所接收到的第二語音資訊轉化為一第二語音信號;及根據所計算出的目標語音信號的聲源的位置對第二語音信號進行降噪處理。

Description

語音資訊的接收方法、系統及裝置
本發明涉及語音信號的降噪處理技術領域,具體涉及一種語音資訊的接收方法、系統及裝置。
隨著技術的發展,手機等電子產品已成為人們日常生活中不可或缺的工具。為了保證在嘈雜的環境下,通話時對方能不被噪音影響,通常會對手機所接收到的語音資訊進行降噪處理。
現有技術中,降噪方法為雙mic(麥克風)降噪方法。這種方法會用到兩個麥克風,其中一麥克風被設定為接收主要語音,另一麥克風被設定為接收非主要語音,其中,該接收主要語音的麥克風設置在更靠近使用者的位置,而接收非主要語音設置在距離使用者更遠的位置。將這兩個麥克風分別連接至噪音消除器。該噪音消除器根據接收非主要語音的麥克風所接收到的語音信號來消除接收主要語音的麥克風所接收到的語音信號中的噪音部分,以獲得較清楚的語音信號。
然而,在實際應用中,不見得使用者就距離一麥克風近而距離另一麥克風遠。因此,現有技術中的上述方法並不能確保通話的對方一定能接收到清楚的語音信號。
有鑒於此,有必要提供一種語音資訊的接收方法、系統及裝置,以解決上述問題。
為達到上述目的,本發明所提供的語音資訊的接收方法,適用於一語音採集裝置,所述語音採集裝置配置有麥克風陣列。所述語音資訊的接收方法包括以下步驟:利用所述麥克風陣列採集一第一語音資訊並將所採集到第一語音資訊轉化為一第一語音信號及利用一攝像單元採集一使用者的多個嘴部圖像,其中,所述第一語音資訊包括目標語音及環境背景語音;將所述第一語音信號與一預設的語音信號進行比較,並根據比較結果確定一目標語音信號;獲取所述麥克風陣列中的不同麥克風採集所述目標語音信號的延遲時間;根據所獲取的延遲時間,計算所述目標語音信號的聲源的位置;利用所述麥克風陣列採集一第二語音資訊並將所接收到第二語音資訊轉化為一第二語音信號;及根據所計算出的目標語音信號的聲源的位置對所述第二語音信號進行降噪處理。
進一步地,所述麥克風陣列中至少包括2個分佈在所述語音採集裝置的不同位置的麥克風。
進一步地,所述聲源的位置為聲源距離所述麥克風的距離及方位。
進一步地,步驟“根據所計算出的目標語音信號的聲源的位置對採集到的第二語音信號進行降噪處理”具體為:將所述第二語音信號中來自所述聲源的語音信號傳遞給語音傳送通道及將第二語音信號中非來自所述聲源的語音信號傳遞給雜音傳送通道;及根據雜音傳送通道中的語音信號降低語音傳送通道中的目標語音信號中的雜音信號。
進一步地,步驟“根據所計算出的目標語音信號的聲源的位置對採集到的第二語音信號進行降噪處理”具體為:根據聲源距離所述麥克風的距離確定所述目標語音信號的振幅區間;及從所述第二語音信號中濾除掉振幅區間不在所述目標語音信號的振幅區間內的語音信號。
進一步地,所述預設的語音信號為預先存儲的一使用者的語音信號。
進一步地,步驟“將所採集到的第一語音信號與一預設的語音信號進行比較,並根據比較結果確定一目標語音信號”具體為:將採集到的第一語音信號的頻率區間與所述使用者的語音信號的頻率區間進行比較;當採集到的第一語音信號的頻率區間落在所述預設的使用者的語音信號的頻率區間內時,判斷所述採集到的第一語音信號中包含了一目標語音信號,該目標語音信號由所述使用者發出。
進一步地,步驟“將所採集到的第一語音信號與一預設的語音信號進行比較,並根據比較結果確定一目標語音信號”具體為:將採集到的第一語音信號的振幅區間與所述使用者的語音信號的振幅區間進行比較;當採集到的第一語音信號的振幅區間落在所述使用者的語音信號的振幅區間內時,判斷該採集到的語音信號中包含了一目標語音信號,該目標語音信號由所述使用者發出。
本發明所提供的語音資訊的接收系統,運行於一語音採集裝置。所述語音採集裝置配置有麥克風陣列。所述語音資訊的接收系統包括: 一採集模組,用於利用所述麥克風陣列採集一第一語音資訊並將所採集到第一語音資訊轉化為一第一語音信號及利用一攝像單元採集一使用者的多個嘴部圖像,其中,所述第一語音資訊包括一目標語音及環境背景語音;一確定模組,用於將所述第一語音信號與一預設的語音信號進行比較,並根據比較結果確定一目標語音信號;一計時模組,用於獲取所述麥克風陣列中的不同麥克風採集所述目標語音信號的延遲時間;一計算模組,用於根據所獲取的延遲時間計算所述目標語音信號的聲源的位置;所述採集模組,還用於利用所述麥克風陣列採集一第二語音信號並將所接收到第二語音資訊轉化為一第二語音信號;及一降噪模組,用於根據所計算出的目標語音信號的聲源的位置對所述第二語音信號進行降噪處理。
此外,本發明所提供的語音資訊的採集裝置,配置有麥克風陣列及一語音資訊的接收系統。所述語音資訊的接收系統包括:一採集模組,用於利用所述麥克風陣列採集一第一語音資訊並將所採集到第一語音資訊轉化為一第一語音信號及利用一攝像單元採集一使用者的多個嘴部圖像,其中,所述第一語音資訊包括一目標語音及環境背景語音;一確定模組,用於將所述第一語音信號與一預設的語音信號進行比較,並根據比較結果確定一目標語音信號;一計時模組,用於獲取所述麥克風陣列中的不同麥克風採集所述目標語音信號的延遲時間;一計算模組,用於根據所獲取的延遲時間計算所述目標語音信號的聲源的位置;所述採集模組,還用於利用所述麥克風陣列採集一第二語音信號並將所接收到第二語音資訊轉化為一第二語音信號;及 一降噪模組,用於根據所計算出的目標語音信號的聲源的位置對所述第二語音信號進行降噪處理。
相對於現有技術,本發明所提供的語音信號的接收方法與系統藉由對所述目標聲源進行定位,以提高接收到的語音信號的品質,以便接收到清楚的語音資訊。
10‧‧‧語音資訊的接收系統
11‧‧‧採集模組
12‧‧‧確定模組
13‧‧‧計時模組
14‧‧‧計算模組
15‧‧‧降噪模組
20‧‧‧語音採集裝置
21‧‧‧麥克風陣列
22‧‧‧記憶體
23‧‧‧控制器
24‧‧‧攝像單元
圖1為本發明一實施方式中的語音資訊的接收系統所運行的硬體環境的示意圖。
圖2為圖1中語音資訊的接收系統的功能模組示意圖。
圖3為本發明一實施方式中語音資訊的接收方法的步驟流程圖。
以下具體實施方式將結合上述附圖進一步說明本發明。應當理解,以下所說明的優選實施例僅用於說明和解釋本發明,並不用於限定本發明。
如圖1所示,其示出了本發明一實施方式中的語音資訊的接收系統10所運行的硬體環境的示意圖。在本實施方式中,該語音資訊的接收系統10安裝並運行於一語音採集裝置20中。在本實施方式中,該語音採集裝置20為手機。在另一實施方式中,該語音採集裝置20為平板電腦、錄音筆、電話等。在其他實施方式中,語音資訊的接收系統10安裝並運行於一由多個語音採集裝置20所構成的通話或電話會議系統中。
所述語音採集裝置20還包括,但不限於,一麥克風陣列21、一記憶體22、一控制器23及一攝像單元24。所述麥克風陣列21用於接收語音資訊。在本實施方式中,麥克風陣列21至少包括2個分佈在語音採集裝置20的不同位置的麥克風。所述記憶體22可以是語音採集裝置20本身的記憶體,也可以是安全數位卡、智慧媒體卡、快閃記憶體卡等外部存放裝置,用於存儲所述語音資 訊的接收系統10的程式碼及其他資料。在本實施方式中,記憶體22中預先存儲有目標使用者的語音資訊。該預先存儲的語音資訊用於確定麥克風陣列21所接收的語音資訊中是否包含有該目標使用者的語音資訊(以下簡稱目標語音資訊)。在另一實施方式中,記憶體22還預先存儲有使用者說話時的不同嘴型的圖像。如,用戶說話時嘴型呈張開狀的圖像。所述控制器23用於控制所述語音採集裝置20工作。所述控制器23可為中央處理器(Central Processing Unit,CPU)、微處理器(Micro Processing Unit,MPU)、數位訊號處理器(Digital Signal Processor,DSP)或可程式設計邏輯陣列(Field-Programmable Gate Array,FPGA)等。攝像單元24用於拍攝使用者嘴部的圖像。在本實施方式中,該攝像單元24設置在距離所述麥克風陣列21一預設距離範圍內如2cm。在其他實施方式中,攝像單元24還可拍攝使用者嘴部的視頻。
所述語音資訊的接收系統10藉由利用麥克風陣列21採集一第一語音資訊並將所接收到第一語音資訊轉化為一第一語音信號。其中,所述第一語音資訊包括目標語音及環境背景語音。所述語音資訊的接收系統10在接收到第一語音信號時,還判斷攝像單元24所拍攝到的用戶嘴部的形狀是否有變化。當有變化時,語音資訊的接收系統10將該第一語音信號與存儲在記憶體22中的預設的語音信號進行比較並根據比較結果確定一目標語音信號。所述語音資訊的接收系統10還獲取麥克風陣列21中的不同麥克風採集所述目標語音信號的延遲時間,並根據所獲取的延遲時間計算目標語音信號的聲源的位置。在目標語音信號的聲源位置確定之後,語音資訊的接收系統10利用麥克風陣列21採集一第二語音資訊並將所接收到第二語音資訊轉化為一第二語音信號,及根據所計算出的目標語音信號的聲源的位置對所述第二語音信號進行降噪處理。
請參見圖2,其示出了本發明一實施方式中的語音資訊的接收系統10的功能模組示意圖。該語音資訊的接收系統10包括一採集模組11、一確定模組12、一計時模組13、一計算模組14及一降噪模組15。本發明所稱的模組是 指一種能夠被語音採集裝置20的控制器23所執行並且能夠完成特定功能的一系列程式命令段或固化於控制器23中的固件。
採集模組11回應使用者的操作利用所述麥克風陣列21採集一第一語音資訊並將所採集到第一語音資訊轉化為一第一語音信號及利用攝像單元24採集一使用者的多個嘴部圖像。所述第一語音資訊包括一目標語音及環境背景語音。
在本實施方式中,採集模組11回應使用者的操作控制麥克風陣列21採集語音資訊及控制攝像單元24採集使用者的嘴部圖像。具體的,用戶的操作為撥打電話或開啟錄音功能的操作。在本實施方式中,攝像單元24安裝在語音採集裝置20上能攝取到該語音採集裝置20前一預設區域內的圖像。當使用者在該預設區域內說話,即說話時用戶的嘴部恰好位於該預設的區域內時,攝像單元24便可拍攝到該用戶說話時的多個嘴部圖像。
確定模組12判斷採集模組11採集到的第一語音信號與攝像單元24所採集到的嘴部圖像是否同步。在本實施方式中,當在攝像單元24所採集到的該多個嘴部圖像中,使用者的嘴型有改變時,則表明使用者正在說話,採集模組11所採集到的語音資訊來源於該使用者的可能性比較大。因此,當所述採集模組11採集到第一語音資訊,且在所述攝像單元24所採集到的嘴部圖像中的嘴型有變化時,確定模組12確定採集模組11採集到的第一語音資訊與所述攝像單元24所採集到的嘴部圖像是同步的。
具體的,在攝像單元24所採集到的該多個嘴部圖像中,當至少一圖像中的嘴型是閉合的且至少一圖像中的嘴型是張開時,確定模組12判定使用者的嘴型有變化。
確定模組12還將採集模組11所採集到的第一語音信號與一預設的語音信號進行比較,並根據比較結果確定一目標語音信號。
該預設的語音信號為預先存儲在記憶體22中的一使用者的語音信號。該語音信號包括該使用者的語音頻率及/或語音振幅。在一實施方式中,確 定模組12將採集模組11所採集到的語音信號的頻率區間與所述使用者的語音信號的頻率區間進行比較。當採集模組11所採集到的語音信號的頻率區間落在預設的使用者的語音信號的頻率區間內時,確定模組12判斷採集模組11所採集到的語音信號中包含了一目標語音信號。其中,該目標語音信號由所述使用者發出的。
在其他實施方式中,確定模組12將採集模組11所採集到的語音信號的振幅區間與所述使用者的語音信號的振幅區間進行比較。當採集到的語音信號的幅度區間與預設的語音信號的幅度區間相匹配時,判斷模組12判斷採集模組11所獲取的語音信號中包含有一目標語音信號。
計時模組13獲取麥克風陣列21中的不同麥克風採集所述目標語音信號的延遲時間。在本實施方式中,麥克風陣列21至少包括2個分佈在語音採集裝置20的不同位置的麥克風。鑒於,麥克風陣列21的每一麥克風分佈在不同的位置,故此,同一目標聲源發出的聲音傳遞到每一麥克風的時間是不同的,即,每一麥克風接收到目標聲源發出的聲音的時間是不同的。故此,計時模組13能根據麥克風陣列21中的不同麥克風接收到的目標語音資訊的時間來獲取該延遲時間。
計算模組14根據計時模組13所獲取到的延遲時間計算目標語音信號的聲源的位置。在本實施方式中,該目標語音信號的聲源的位置包括聲源距離所述麥克風陣列21的每一麥克風的距離及方位。此外,根據延遲時間計算出目標語音信號的聲源的位置為現有技術,在此不作贅述。
採集模組11利用麥克風陣列21採集一第二語音資訊並將所接收到第二語音資訊轉化為一第二語音信號。
降噪模組15根據計算模組14所計算出的目標語音信號的聲源的位置對所述第二語音信號進行降噪處理。
在一實施方式中,降噪模組15將所述第二語音信號中來自所述聲源的語音信號傳遞給語音傳送通道及將第二語音信號中非來自所述聲源的語音 信號傳遞給雜音傳送通道;及根據雜音傳送通道中的語音信號降低語音傳送通道中的目標語音信號中的雜音信號。在本實施方式中,降噪模組15將所接收到的第二語音信號中的頻率區間範圍落入所預設的頻率區間範圍內的語音信號認定該語音信號是來自所述聲源的語音信號;及將所接收到的第二語音信號中的頻率區間範圍未落入所預設的頻率區間範圍內的語音信號認定該語音信號是非來自所述聲源的語音信號。
在另一實施方式中,降噪模組15將根據所述聲源距離所述麥克風的距離確定所述目標語音信號的振幅區間,及從所述第二語音信號中濾除掉振幅區間不在所述目標語音信號的振幅區間內的語音信號。
如圖3所示,是本發明一實施方式中的語音資訊的接收方法的步驟流程圖。根據具體的情況,該流程圖步驟的順序可以改變,某些步驟可以省略。
步驟301:採集模組11回應使用者的操作利用所述麥克風陣列21採集一第一語音資訊並將所採集到第一語音資訊轉化為一第一語音信號及利用攝像單元24採集一使用者的多個嘴部圖像。所述第一語音資訊包括一目標語音及環境背景語音。
在本實施方式中,採集模組11回應使用者的操作控制麥克風陣列21採集語音資訊及控制攝像單元24採集使用者的嘴部圖像。具體的,用戶的操作為撥打電話或開啟錄音功能的操作。在本實施方式中,攝像單元24安裝在語音採集裝置20上能攝取到該語音採集裝置20前一預設區域內的圖像。當使用者在該預設區域內說話,即說話時用戶的嘴部恰好位於該預設的區域內時,攝像單元24便可拍攝到該用戶說話時的多個嘴部圖像。
步驟302:確定模組12判斷採集模組11採集到的第一語音信號與攝像單元24所採集到的嘴部圖像是否同步。若是,則進入步驟303;若否,則流程結束。
具體的,若在攝像單元24所採集到的該多個嘴部圖像中,使用者的嘴型有改變時,則表明使用者正在說話,採集模組11所採集到的語音資訊來源於該使用者的可能性比較大。因此,當所述採集模組11採集到第一語音資訊,且在所述攝像單元24所採集到的嘴部圖像中的嘴型有變化時,確定模組12確定採集模組11採集到的第一語音資訊與所述攝像單元24所採集到的嘴部圖像是同步的。
在本實施方式中,在攝像單元24所採集到的該多個嘴部圖像中,當至少一圖像中的嘴型是閉合的且至少一圖像中的嘴型是張開時,確定模組12判定使用者的嘴型有變化。
步驟303:確定模組12將採集模組11所採集到的第一語音信號與一預設的語音信號進行比較,並根據比較結果確定一目標語音信號。
該預設的語音信號為預先存儲在記憶體22中的一使用者的語音信號。該語音信號包括該使用者的語音頻率及/或語音振幅。在一實施方式中,確定模組12將採集模組11所採集到的語音信號的頻率區間與所述使用者的語音信號的頻率區間進行比較。當採集模組11所採集到的語音信號的頻率區間落在預設的使用者的語音信號的頻率區間內時,確定模組12判斷採集模組11所採集到的語音信號中包含了一目標語音信號。其中,該目標語音資訊由所述使用者發出的。
在其他實施方式中,確定模組12將採集模組11所採集到的語音信號的振幅區間與所述使用者的語音信號的振幅區間進行比較。當採集到的語音信號的幅度區間與預設的語音信號的幅度區間相匹配時,判斷模組12判斷採集模組11所獲取的語音信號中包含有一目標語音信號。
步驟304:計時模組13獲取麥克風陣列21中的不同麥克風採集所述目標語音信號的延遲時間。
在本實施方式中,麥克風陣列21至少包括2個分佈在語音採集裝置20的不同位置的麥克風。鑒於,麥克風陣列21的每一麥克風分佈在不同的位 置,故此,同一目標聲源發出的聲音傳遞到每一麥克風的時間是不同的,即,每一麥克風接收到目標聲源發出的聲音的時間是不同的。故此,計時模組13能根據麥克風陣列21中的不同麥克風接收到的目標語音信號的時間來獲取該延遲時間。
步驟305:計算模組14根據計時模組13所獲取到的延遲時間計算目標語音信號的聲源的位置。
在本實施方式中,該目標語音信號的聲源的位置包括聲源距離所述麥克風陣列21的每一麥克風的距離及方位。此外,根據延遲時間計算出目標語音信號的聲源的位置為現有技術,在此不作贅述。
步驟306:採集模組11利用麥克風陣列21採集一第二語音資訊並將所接收到第二語音資訊轉化為一第二語音信號。
步驟307:降噪模組15根據計算模組14所計算出的目標語音資訊的聲源的位置對所述第二語音信號進行降噪處理。
在一實施方式中,降噪模組15將所述第二語音信號中來自所述聲源的語音信號傳遞給語音傳送通道及將第二語音信號中非來自所述聲源的語音信號傳遞給雜音傳送通道;及根據雜音傳送通道中的語音信號降低語音傳送通道中的目標語音信號中的雜音信號。在本實施方式中,降噪模組15將所接收到的第二語音信號中的頻率區間範圍落入所預設的頻率區間範圍內的語音信號認定該語音信號是來自所述聲源的語音信號;及將所接收到的第二語音信號中的頻率區間範圍未落入所預設的頻率區間範圍內的語音信號認定該語音信號是非來自所述聲源的語音信號。
在另一實施方式中,降噪模組15將根據所述聲源距離所述麥克風的距離確定所述目標語音信號的振幅區間,及從所述第二語音信號中濾除掉振幅區間不在所述目標語音信號的振幅區間內的語音信號。
本發明所提供的語音資訊的接收方法、系統與裝置,利用麥克風陣列對目標聲源進行定位,以提高接收到的語音信號的品質,以便接收者能接收到清楚的語音資訊。
本技術領域的普通技術人員應當認識到,以上的實施方式僅是用來說明本發明,而並非用作為對本發明的限定,只要在本發明的實質精神範圍之內,對以上實施例所作的適當改變和變化都落在本發明要求保護的範圍之內。

Claims (9)

  1. 一種語音資訊的接收方法,適用於一語音採集裝置,所述語音採集裝置配置有麥克風陣列;其改良在於,所述語音資訊的接收方法包括步驟:利用所述麥克風陣列採集一第一語音資訊並將所採集到的第一語音資訊轉化為一第一語音信號及攝取一使用者的多個嘴部圖像,其中,所述第一語音資訊包括一目標語音及環境背景語音;判斷所採集到的第一語音信號與所採集到的嘴部圖像是否同步;當第一語音信號與所述嘴部圖像同步時,將所述第一語音信號與一預設的語音信號進行比較並根據比較結果確定一目標語音信號;獲取所述麥克風陣列中的不同麥克風採集所述目標語音信號的延遲時間;根據所獲取的延遲時間計算所述目標語音信號的聲源的位置,所述目標語音信號的聲源的位置包括聲源距離所述麥克風陣列的每一麥克風的距離及方位;利用所述麥克風陣列採集一第二語音資訊並將所接收到的第二語音資訊轉化為一第二語音信號;及根據所計算出的目標語音信號的聲源的位置對所述第二語音信號進行降噪處理。
  2. 如申請專利範圍第1項所述之方法,其中,所述麥克風陣列中至少包括2個分佈在所述語音採集裝置的不同位置的麥克風。
  3. 如申請專利範圍第1項所述之方法,其中,步驟“根據所計算出的目標語音信號的聲源的位置對採集到的第二語音信號進行降噪處理”具體為:將所述第二語音信號中來自所述聲源的語音信號傳遞給語音傳送通道及將第二語音信號中非來自所述聲源的語音信號傳遞給雜音傳送通道;及根據雜音傳送通道中的語音信號降低語音傳送通道中的目標語音信號中的雜音信號。
  4. 如申請專利範圍第1項所述之方法,其中,步驟“根據所計算出的目標語音信號的聲源的位置對採集到的第二語音信號進行降噪處理”具體為:根據聲源距離所述麥克風的距離確定所述目標語音信號的振幅區間;及從所述第二語音信號中濾除掉振幅區間不在所述目標語音信號的振幅區間內的語音信號。
  5. 如申請專利範圍第1項所述之方法,其中,所述預設的語音信號為預先存儲的一使用者的語音信號。
  6. 如申請專利範圍第3項所述之方法,其中,步驟“將所採集到的第一語音資訊與一預設的語音資訊進行比較,並根據比較結果確定一目標語音信號”具體為:將採集到的第一語音信號的頻率區間與所述使用者的語音信號的頻率區間進行比較;當採集到的第一語音信號的頻率區間落在所述預設的使用者的語音信號的頻率區間內時,判斷所述採集到的第一語音信號中包含了一目標語音信號,該目標語音信號由所述使用者發出。
  7. 如申請專利範圍第3項所述之方法,其中,步驟“將所採集到的第一語音信號與一預設的語音信號進行比較,並根據比較結果確定一目標語音信號”具體為:將採集到的第一語音信號的振幅區間與所述使用者的語音信號的振幅區間進行比較;當採集到的第一語音信號的振幅區間落在所述使用者的語音信號的振幅區間內時,判斷該採集到的語音信號中包含了一目標語音信號,該目標語音信號由所述使用者發出。
  8. 一種語音資訊的接收系統,運行於一語音採集裝置,所述語音採集裝置配置有麥克風陣列,其改良在於,所述語音資訊的接收系統包括:一採集模組,用於利用所述麥克風陣列採集一第一語音資訊並將所採集到的第一語音資訊轉化為一第一語音信號及利用一攝像單元採集一使用者的多個嘴部圖像,其中,所述第一語音資訊包括一目標語音及環境背景語音;一確定模組,用於判斷所述採集模組所採集到的第一語音信號與所採集到的嘴部圖像是否同步;當第一語音信號與嘴部圖像同步時,所述確定模組還用於將所述第一語音信號與一預設的語音信號進行比較並根據比較結果確定一目標語音信號;一計時模組,用於獲取所述麥克風陣列中的不同麥克風採集所述目標語音信號的延遲時間;一計算模組,用於根據所獲取的延遲時間計算所述目標語音信號的聲源的位置,所述目標語音信號的聲源的位置包括聲源距離所述麥克風陣列的每一麥克風的距離及方位;所述採集模組,還用於利用所述麥克風陣列採集一第二語音資訊並將所接收到的第二語音資訊轉化為一第二語音信號;及一降噪模組,用於根據所計算出的目標語音信號的聲源的位置對所述第二語音信號進行降噪處理。
  9. 一種語音資訊的採集裝置,配置有麥克風陣列及一語音資訊的接收系統,其改良在於,所述語音資訊的接收系統包括:一採集模組,用於利用所述麥克風陣列採集一第一語音資訊並將所採集到的第一語音資訊轉化為一第一語音信號及利用一攝像單元採集一使用者的多個嘴部圖像,其中,所述第一語音資訊包括一目標語音及環境背景語音;一確定模組,用於判斷所述採集模組所採集到的第一語音信號與所採集到的嘴部圖像是否同步;當第一語音信號與嘴部圖像同步時,所述確定模組還用於將所述第一語音信號與一預設的語音信號進行比較並根據比較結果確定一目標語音信號;一計時模組,用於獲取所述麥克風陣列中的不同麥克風採集所述目標語音信號的延遲時間;一計算模組,用於根據所獲取的延遲時間計算所述目標語音信號的聲源的位置,所述目標語音信號的聲源的位置包括聲源距離所述麥克風陣列的每一麥克風的距離及方位;所述採集模組,還用於利用所述麥克風陣列採集一第二語音資訊並將所接收到的第二語音資訊轉化為一第二語音信號;及一降噪模組,用於根據所計算出的目標語音信號的聲源的位置對所述第二語音信號進行降噪處理。
TW105119634A 2016-05-27 2016-06-22 語音資訊的接收方法、系統及裝置 TWI678696B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610368408.3 2016-05-27
??201610368408.3 2016-05-27
CN201610368408.3A CN107437420A (zh) 2016-05-27 2016-05-27 语音信息的接收方法、系统及装置

Publications (2)

Publication Number Publication Date
TW201801069A TW201801069A (zh) 2018-01-01
TWI678696B true TWI678696B (zh) 2019-12-01

Family

ID=60418114

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105119634A TWI678696B (zh) 2016-05-27 2016-06-22 語音資訊的接收方法、系統及裝置

Country Status (3)

Country Link
US (1) US20170345437A1 (zh)
CN (1) CN107437420A (zh)
TW (1) TWI678696B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108089152B (zh) * 2016-11-23 2020-07-03 杭州海康威视数字技术股份有限公司 一种设备控制方法、装置及系统
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
CN108600566B (zh) * 2018-04-28 2021-01-08 维沃移动通信有限公司 一种干扰处理方法及移动终端
CN109360579A (zh) * 2018-12-05 2019-02-19 途客电力科技(天津)有限公司 充电桩语音控制装置以及系统
CN110730398A (zh) * 2019-10-16 2020-01-24 同响科技股份有限公司 分布式无线麦克风数组音频收音同步方法
US11783826B2 (en) * 2021-02-18 2023-10-10 Nuance Communications, Inc. System and method for data augmentation and speech processing in dynamic acoustic environments
US20230274753A1 (en) * 2022-02-25 2023-08-31 Bose Corporation Voice activity detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053002A1 (en) * 2002-12-11 2006-03-09 Erik Visser System and method for speech processing using independent component analysis under stability restraints
TW200841324A (en) * 2006-11-30 2008-10-16 Broadcom Corp Method and system for processing multi-rate audio from a plurality of audio processing sources
TW200943280A (en) * 2008-01-29 2009-10-16 Qualcomm Inc Improving sound quality by intelligently selecting between signals from a plurality of microphones
US20120200492A1 (en) * 2011-02-09 2012-08-09 Inventec Appliances (Shanghai) Co., Ltd. Input Method Applied in Electronic Devices
US20130222230A1 (en) * 2012-02-29 2013-08-29 Pantech Co., Ltd. Mobile device and method for recognizing external input

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
JP4195267B2 (ja) * 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP5672770B2 (ja) * 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
US9633670B2 (en) * 2013-03-13 2017-04-25 Kopin Corporation Dual stage noise reduction architecture for desired signal extraction
CN104422922A (zh) * 2013-08-19 2015-03-18 中兴通讯股份有限公司 一种移动终端实现声源定位的方法及装置
CN105874535B (zh) * 2014-01-15 2020-03-17 宇龙计算机通信科技(深圳)有限公司 语音处理方法和语音处理装置
CN105321523A (zh) * 2014-07-23 2016-02-10 中兴通讯股份有限公司 噪音抑制方法和装置
CN204390737U (zh) * 2014-07-29 2015-06-10 科大讯飞股份有限公司 一种家庭语音处理系统
CN105467364B (zh) * 2015-11-20 2019-03-29 百度在线网络技术(北京)有限公司 一种定位目标声源的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053002A1 (en) * 2002-12-11 2006-03-09 Erik Visser System and method for speech processing using independent component analysis under stability restraints
TW200841324A (en) * 2006-11-30 2008-10-16 Broadcom Corp Method and system for processing multi-rate audio from a plurality of audio processing sources
TW200943280A (en) * 2008-01-29 2009-10-16 Qualcomm Inc Improving sound quality by intelligently selecting between signals from a plurality of microphones
US20120200492A1 (en) * 2011-02-09 2012-08-09 Inventec Appliances (Shanghai) Co., Ltd. Input Method Applied in Electronic Devices
US20130222230A1 (en) * 2012-02-29 2013-08-29 Pantech Co., Ltd. Mobile device and method for recognizing external input

Also Published As

Publication number Publication date
TW201801069A (zh) 2018-01-01
CN107437420A (zh) 2017-12-05
US20170345437A1 (en) 2017-11-30

Similar Documents

Publication Publication Date Title
TWI678696B (zh) 語音資訊的接收方法、系統及裝置
JP6651989B2 (ja) 映像処理装置、映像処理方法、及び映像処理システム
US9620116B2 (en) Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US9668048B2 (en) Contextual switching of microphones
EP3163748A2 (en) Method, device and terminal for adjusting volume
CN108766457B (zh) 音频信号处理方法、装置、电子设备及存储介质
US9973561B2 (en) Conferencing based on portable multifunction devices
CN110415695A (zh) 一种语音唤醒方法及电子设备
US20230177942A1 (en) Systems and methods for identifying an acoustic source based on observed sound
US20150172830A1 (en) Method of Audio Signal Processing and Hearing Aid System for Implementing the Same
WO2016176951A1 (zh) 声音信号优化方法及装置
US20150088515A1 (en) Primary speaker identification from audio and video data
WO2014161309A1 (zh) 一种移动终端实现声源定位的方法及装置
EP4064692A1 (en) Smart audio muting in a videoconferencing system
US9319513B2 (en) Automatic un-muting of a telephone call
WO2017166495A1 (zh) 一种语音信号处理方法及装置
CN111182416B (zh) 处理方法、装置及电子设备
CN110660403A (zh) 一种音频数据处理方法、装置、设备及可读存储介质
US9161125B2 (en) High dynamic microphone system
RU2635838C2 (ru) Способ и устройство для звукозаписи
TWI687917B (zh) 語音系統及聲音偵測方法
JP2020178150A (ja) 音声処理装置及び音声処理方法
US20240037993A1 (en) Video processing method arranged to perform partial highlighting with aid of hand gesture detection and associated system on chip
JP2014204318A (ja) 携帯端末装置
US11961501B2 (en) Noise reduction method and device