TW201935461A - 語音資料處理方法及裝置 - Google Patents
語音資料處理方法及裝置 Download PDFInfo
- Publication number
- TW201935461A TW201935461A TW107139466A TW107139466A TW201935461A TW 201935461 A TW201935461 A TW 201935461A TW 107139466 A TW107139466 A TW 107139466A TW 107139466 A TW107139466 A TW 107139466A TW 201935461 A TW201935461 A TW 201935461A
- Authority
- TW
- Taiwan
- Prior art keywords
- microphone
- voice data
- box
- characteristic information
- information
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Abstract
本申請實施方式公開了一種語音資料處理方法及裝置。所述方法包括:獲取麥克風錄製的語音資料;獲取所述麥克風所處的麥克風箱體的特徵資訊;將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。利用本申請的技術方案,一方面,可以降低獲取遠場語音資料的成本,另一方面,利用強健性較高的遠場語音資料進行遠場語音模型訓練,可以獲取具有較高準確性的遠場語音模型,該遠場語音模型對於後續的遠場語音識別具有重要的意義。
Description
本申請涉及語音識別技術領域,特別涉及一種語音資料處理方法處理方法及裝置。
近年來,語音識別技術取得顯著進步,已經逐漸從實驗室走向市場。典型地,語音識別技術已經在工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等多個領域中廣泛應用。語音識別技術所涉及的技術領域比較複雜,其中包括信號處理、模式識別、概率論和資訊論、發聲機理和聽覺機理、人工智慧等等。
遠場語音識別技術是語音識別領域中的重要技術,目的在於能夠在遠距離條件下(通常是1m-5m)讓機器識別人的語音。遠場語音識別技術在智慧家居(如智慧音箱、智慧電視等)、會議轉錄等場景都有重要的應用。由於真實環境中存在大量的噪聲、多徑反射和混響等干擾,導致拾取的語音信號質量較低。因此,通常情況下遠場語音識別的準確率與近場語音識別相比會有大幅下降。基於此,在遠場語音識別中,可以利用大量的遠場語音資料進行模型訓練以提高語音識別的準確率。在對遠場語音識別進行模型訓練的過程中,通常採用麥克風陣列的方式收集語音資料。但是,受設備、場地等因素的影響,錄製遠場語音資料比錄製近場語音資料成本更高,大量的真實遠場語音資料通常不易獲得。因此,現有技術中,在對遠場語音識別進行模型訓練的過程中,可以利用近場語音資料模擬產生遠場語音資料。利用近場語音資料模擬產生遠場語音資料的目的在於使得模擬產生的遠場語音資料與真實遠場語音資料相接近,從而更好地進行模型訓練。
但是,現有技術中訓練得到的遠場語音模型往往與真實的遠場語音場景有較大的偏差。因此,現有技術中極需一種能夠模擬真實遠場語音場景的語音資料處理技術。
遠場語音識別技術是語音識別領域中的重要技術,目的在於能夠在遠距離條件下(通常是1m-5m)讓機器識別人的語音。遠場語音識別技術在智慧家居(如智慧音箱、智慧電視等)、會議轉錄等場景都有重要的應用。由於真實環境中存在大量的噪聲、多徑反射和混響等干擾,導致拾取的語音信號質量較低。因此,通常情況下遠場語音識別的準確率與近場語音識別相比會有大幅下降。基於此,在遠場語音識別中,可以利用大量的遠場語音資料進行模型訓練以提高語音識別的準確率。在對遠場語音識別進行模型訓練的過程中,通常採用麥克風陣列的方式收集語音資料。但是,受設備、場地等因素的影響,錄製遠場語音資料比錄製近場語音資料成本更高,大量的真實遠場語音資料通常不易獲得。因此,現有技術中,在對遠場語音識別進行模型訓練的過程中,可以利用近場語音資料模擬產生遠場語音資料。利用近場語音資料模擬產生遠場語音資料的目的在於使得模擬產生的遠場語音資料與真實遠場語音資料相接近,從而更好地進行模型訓練。
但是,現有技術中訓練得到的遠場語音模型往往與真實的遠場語音場景有較大的偏差。因此,現有技術中極需一種能夠模擬真實遠場語音場景的語音資料處理技術。
本申請實施方式的目的是提供一種語音資料處理方法及裝置。一方面,可以降低獲取遠場語音資料的成本,另一方面,利用強健性較高的遠場語音資料進行遠場語音模型訓練,可以獲取具有較高準確性的遠場語音模型,該遠場語音模型對於後續的遠場語音識別具有重要的意義。
具體地,所述語音資料處理方法及裝置是這樣實現的:
一種語音資料處理方法,所述方法包括:
獲取麥克風錄製的語音資料;
確定所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
一種語音資料處理方法,所述方法包括:
獲取由多個麥克風組成的麥克風陣列錄製的語音資料;
分別獲取所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
一種語音資料處理裝置,包括處理器以及用於儲存處理器可執行指令的儲存器,所述處理器執行所述指令時實現:
獲取麥克風錄製的語音資料;
確定所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
一種語音資料處理裝置,包括處理器以及用於儲存處理器可執行指令的儲存器,所述處理器執行所述指令時實現:
獲取由多個麥克風組成的麥克風陣列錄製的語音資料;
分別獲取所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
一種計算機可讀儲存媒體,其上儲存有計算機指令,所述指令被執行時實現所述語音資料處理方法的步驟。
本申請提供的語音資料處理方法及裝置,可以獲取設置有麥克風的麥克風箱體的特徵資訊,並基於所述特徵資訊,利用所述麥克風錄製的近場語音資料模擬遠場語音資料。由於具有不同特徵的麥克風箱體對聲波的影響不相同,利用本申請實施例提供的資料處理方法,可以將麥克風箱體對聲波的影響融合至利用近場語音資料模擬遠場語音資料的過程中,這樣,利用近場語音資料模擬得到的遠場語音資料更加接近於真實場景中的遠場語音資料。一方面,可以降低獲取遠場語音資料的成本,另一方面,利用強健性較高的遠場語音資料進行遠場語音模型訓練,可以獲取具有較高準確性的遠場語音模型,該遠場語音模型對於後續的遠場語音識別具有重要的意義。
具體地,所述語音資料處理方法及裝置是這樣實現的:
一種語音資料處理方法,所述方法包括:
獲取麥克風錄製的語音資料;
確定所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
一種語音資料處理方法,所述方法包括:
獲取由多個麥克風組成的麥克風陣列錄製的語音資料;
分別獲取所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
一種語音資料處理裝置,包括處理器以及用於儲存處理器可執行指令的儲存器,所述處理器執行所述指令時實現:
獲取麥克風錄製的語音資料;
確定所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
一種語音資料處理裝置,包括處理器以及用於儲存處理器可執行指令的儲存器,所述處理器執行所述指令時實現:
獲取由多個麥克風組成的麥克風陣列錄製的語音資料;
分別獲取所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
一種計算機可讀儲存媒體,其上儲存有計算機指令,所述指令被執行時實現所述語音資料處理方法的步驟。
本申請提供的語音資料處理方法及裝置,可以獲取設置有麥克風的麥克風箱體的特徵資訊,並基於所述特徵資訊,利用所述麥克風錄製的近場語音資料模擬遠場語音資料。由於具有不同特徵的麥克風箱體對聲波的影響不相同,利用本申請實施例提供的資料處理方法,可以將麥克風箱體對聲波的影響融合至利用近場語音資料模擬遠場語音資料的過程中,這樣,利用近場語音資料模擬得到的遠場語音資料更加接近於真實場景中的遠場語音資料。一方面,可以降低獲取遠場語音資料的成本,另一方面,利用強健性較高的遠場語音資料進行遠場語音模型訓練,可以獲取具有較高準確性的遠場語音模型,該遠場語音模型對於後續的遠場語音識別具有重要的意義。
為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施方式中的附圖,對本申請實施方式中的技術方案進行清楚、完整地描述,顯然,所描述的實施方式僅僅是本申請一部分實施方式,而不是全部的實施方式。基於本申請中的實施方式,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施方式,都應當屬於本申請保護的範圍。
為了方便本領域技術人員理解本申請實施例提供的技術方案,下面首先透過圖1對技術方案實現的技術環境進行說明。
現有技術中,通常利用近場語音資料模擬遠場語音資料,其中近場語音資料可以透過麥克風或者麥克風陣列等音頻錄製設備拾取。在利用近場語音資料模擬遠場語音資料的過程中,可以獲取在遠場語音環境中周圍環境因素對音頻錄製設備的衝擊響應。現有技術中通常考慮到的周圍環境因素可以包括建築物空間大小、音頻錄製設備的空間位置等因素。當然,還可以考慮到影響到音頻錄製設備的等方向性背景噪聲等。在一個示例中,對於單個麥克風錄製的近場語音資料,可以利用下述表達式(1)模擬計算遠場語音資料:
其中,y(t)為模擬產生的遠場語音資料,x(t)為近場語音資料,hs (t)為由建築物空間大小、音頻錄製設備位置等環境因素對所述音頻錄製設備所產生的衝擊響應,n(t)為等方向性背景噪聲。
透過上述表達式(1)所示的遠場語音資料的計算公式可以發現,在計算過程中,只考慮到建築物空間大小、音頻錄製設備位置、背景噪聲等環境因素對錄製設備所產生的衝擊響應。但是在實際的遠場語音環境中,能夠對錄製的遠場語音資料產生的環境因素遠不止上述公式(1)中所體現的因素。因此,利用類似於上述公式(1)模擬計算得到的遠場語音資料往往與真實場景中的遠場語音資料不相符合。
基於類似於上文所述的技術需求,本申請提供一種語音資料處理方法,該方法可以將影響遠場語音環境中的多個其他環境因素融合至近場語音資料模擬遠場語音資料的過程中,獲取到強健性更強的模擬遠場語音資料。具體的,其中一個重要的環境因素可以包括麥克風所在麥克風箱體的特徵資訊。當然,本申請提供的語音資料處理技術不僅應用於利用語音資料模擬遠場語音資料的場景中,還可以應用到例如語音識別等任何語音處理的場景中。
下面透過一個具體的應用場景說明本申請提供的實施例方法,如圖1所示,在錄製語音資料的房間裡,設置有由四個麥克風組成的麥克風陣列。在利用所述麥克風陣列錄製完成語音資料之後,可以按照圖1虛線框內的方式將所述語音資料模擬成遠場語音資料。如圖1所示的公式,y1 (t)-y4 (t)分別為模擬產生的第1-4個麥克風的遠場語音資料,x(t)為錄製的語音資料,hs1 (t)-hs4 (t)為建築物特徵資訊、麥克風位置、麥克風佈局等背景環境分別對第1-4個麥克風的衝擊響應資訊,hj1 (t)-hj4 (t)為麥克風陣列周圍的點源噪聲分別對第1-4個麥克風的衝擊響應資訊,n(t)為等方向性噪聲,hm1 (t)-hm4 (t)分別為第1-4個麥克風的麥克風箱體對麥克風產生的衝激響應資訊。對於上述房間而言,房間牆壁上的音樂播放器5所產生的音樂可以確定為點源噪聲,當然,所述點源噪聲可以包括房間中其他人說話的聲音等。另外,房間外的風聲、馬路上車輛行駛的聲音也是遠場語音資料中的一部分,而這些聲音距離麥克風陣列都很遠,且產生的效果幾乎相同,因此,這些噪聲可以確定為等方向性噪聲。當然,上述點源噪聲、等方向性噪聲不僅可以在現實環境中添加,還可以利用聲音模擬軟體中添加,在此不做限制。
圖1公式中所示的衝擊響應可以透過測試或者軟體模擬等方式獲取得到,具體說明可以參考以下各個實施例,在此不做贅述。在本實施例中,考慮到麥克風箱體所述語音資料所產生的影響,在利用所述語音資料模擬遠場語音資料的過程中,可以將麥克風箱體的特徵資訊混響至所述語音資料中,具體地,所述麥克風箱體的特徵資訊可以包括下述中的至少一種:麥克風箱體的大小、形狀、材質等。衝激響應資訊hm1 (t)-hm4 (t)可以根據真實環境測試或者軟體模擬得到,具體說明可以參考以下各個實施例,在此不做贅述。
下面結合附圖對本申請所述的語音資料處理方法進行詳細的說明。圖2是本申請提供的語音資料處理方法的一種實施例的方法流程圖。雖然本申請提供了如下述實施例或附圖所示的方法操作步驟,但基於常規或者無需創造性的勞動在所述方法中可以包括更多或者更少的操作步驟。在邏輯性上不存在必要因果關係的步驟中,這些步驟的執行順序不限於本申請實施例提供的執行順序。所述方法在實際中的語音資料處理過程中,可以按照實施例或者附圖所示的方法順序執行或者並行執行(例如並行處理器或者多線程處理的環境)。
具體的本申請提供的語音資料處理方法的一種實施例如圖2所示,所述方法可以包括:
S201:獲取麥克風錄製的語音資料。
S203:確定所述麥克風所處的麥克風箱體的特徵資訊。
S205:將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
本實施例中,所述語音資料可以包括近場語音資料,所述近場語音資料可以包括從距離麥克風較近的聲源處錄製的語音資料,通常情況下,當麥克風距離聲源小於聲音的波長時,可以確定錄製的語音資料為近場語音資料。所述語音資料可以是實時錄製的語音資料,也可以是從已經錄製完成的用於訓練的語音資料。在本申請的一個實施例中,所述語音資料中包含語音,以用於語音識別的場景,當然,所述語音資料中還可以包括環境噪聲等。本實施例中,所述麥克風設置於麥克風箱體中,具體地,所述麥克風可以設置於麥克風箱體的外壁、內壁、麥克風箱體的腔體內等位置處,對此不做限制。所述麥克風箱體可以包括內置有麥克風的客戶端的外殼,所述客戶端是台式電腦、平板電腦、筆記型電腦、智慧手機、數位助理、智慧可穿戴設備、導購終端、電視機、智慧音箱等。其中,智慧可穿戴設備包括但不限於智慧手環、智慧手錶、智慧眼鏡、智慧頭盔、智慧項鍊等。
在實際應用中,聲音作為一種波,在麥克風箱體中可以發生反射、散射等現象。因此,當麥克風置於在不同的麥克風箱體中時,獲取的聲音的效果也不相同。因此,在利用所述語音資料模擬遠場語音資料或者獲取受周圍環境影響後的語音資料的過程中時,語音資料可以在設置有麥克風的麥克風箱體中產生不同的效果。基於此,本實施例中,可以將麥克風箱體的特徵資訊混響至所述語音資料中。其中,所述麥克風箱體的特徵資訊可以包括下述中的至少一種:麥克風箱體的大小、形狀、材質等。例如,對於麥克風箱體的大小來說,麥克風箱體中的腔體越大時,人耳所能感受的聲音越厚重。對於聲音信號處理過程,當麥克風箱體中的腔體越大時,麥克風箱體對麥克風箱體中麥克風的衝擊響應的效果越穩定。當麥克風箱體中的腔體越小時,麥克風箱體對麥克風箱體中麥克風的衝擊響應體現下述現象:在低音部分具有較強的增益,在高音部分逐漸衰減,在發生共振的頻率處增益會突然增大。再如,對於麥克風箱體的材質而言,木質的麥克風箱體往往低音效果比塑料、金屬等其他材質的麥克風箱體要好,因此,不同材質的麥克風箱體對聲音的混響效果不同。另外,麥克風箱體的形狀對於聲音的影響也不相同,例如,圓柱形的麥克風箱體對聲音的混響效果比長方體的麥克風箱體好,因此,不同形狀的麥克風箱體對聲音的混響效果不相同。當然,在其他實施例中,所述麥克風箱體的特徵資訊還可以包括其他任何能夠影響到聲音效果的資訊,在此不做限制。
基於上述具有不同特徵資訊的麥克風箱體對麥克風接收語音資料所產生的影響,在本申請實施例中,可以基於所述麥克風箱體的所述特徵資訊,利用所述語音資料模擬遠場語音資料或者獲取受周圍環境影響後的語音資料。例如,在利用所述語音資料模擬遠場語音資料的過程中,在聲場模型中,具有近場模型和遠場模型兩種,近場模型可以將聲波看成球面波,而遠場模型則可以將聲波看成平面波,近似認為各接收信號之間是簡單的時延關係。那麼,在利用語音資料模擬遠場語音的過程中,可以將語音資料經過空間傳輸和建築物反射等處理,生成到達麥克風的模擬遠場語音資料。在本申請的一個實施例中,對所述語音資料的處理方式可以包括將麥克風箱體對麥克風的衝擊響應資訊與語音資料進行卷積處理。其中,所述麥克風箱體對所述麥克風的衝擊響應資訊可以根據所述麥克風箱體的特徵資訊確定。
在本申請的一個實施例中,可以透過測試的方式獲取所述麥克風箱體對所述麥克風的衝擊響應資訊。具體地,可以獲取具有所述預設特徵資訊的麥克風箱體,且所述麥克風設置於所述麥克風箱體中。在獲取衝擊響應資訊的過程中,可以播放測試信號,並利用設置於所述麥克風箱體中的麥克風接收所述測試信號。基於此,可以根據麥克風接收到的測試信號與播放的測試信號,計算得到所述麥克風箱體對所述麥克風的衝擊響應資訊。
在本申請的另一個實施例中,還可以從麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係資料源中獲取麥克風箱體對麥克風的衝擊響應資訊。也就是說,根據所述麥克風箱體的特徵資訊,從關聯關係資料源中查詢得到麥克風箱體對麥克風的衝擊響應資訊。其中,所述關聯關係資料源可以按照下述方式獲取:設置多個具有不同預設特徵資訊的麥克風箱體,所述麥克風箱體中設置有麥克風。然後,可以透過測試方式分別獲取所述多個麥克風箱體中麥克風的衝擊響應資訊。在獲取到多個麥克風箱體中麥克風的衝擊響應資訊之後,可以對所述多個麥克風箱體中麥克風的衝擊響應資訊進行擬合處理,生成麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係。在一個示例中,可以獲取多個不同尺寸的木質圓柱體音箱,每個音箱均設置有麥克風,如音箱的尺寸有3寸、5寸、8寸、10寸等等。透過測試的方式可以獲取上述多個尺寸的音箱中麥克風的衝擊響應資訊。所述衝擊響應資訊可以包括帶通濾波器,所述帶通濾波器可以包括上、下截止頻率、增益等參數。由於音箱的尺寸不相同,因此對麥克風的衝擊響應資訊也不相同。在獲取到多個尺寸的麥克風箱體對麥克風的衝擊響應資訊之後,可以對所述衝激響應資訊進行擬合處理,生成麥克風箱體的尺寸與麥克風箱體中麥克風沖進相應資訊之間的關聯關係。例如,根據擬合得到的關聯關係,可以推斷出7寸木質圓柱體音箱的麥克風箱體對麥克風的衝擊響應資訊。
本實施例中,在獲取到麥克風的衝擊響應資訊之後,可以利用將所述語音資料和所述衝擊響應資訊進行卷積的方式將所述麥克風的所述特徵資訊混響至所述語音資料中。例如,在利用所述語音資料模擬遠場語音資料過程中,可以按照下述計算公式計算得到遠場語音資料:
其中,y(t)為模擬產生的遠場語音資料,x(t)為語音資料,hm (t)為麥克風箱體對麥克風的衝擊響應資訊。
在本申請的一個實施例中,還可以先將所述麥克風箱體之外的背景環境所帶來的影響混響至所述語音資料中。具體地,所述背景環境可以包括下述中的至少一種:所述麥克風所在建築物的特徵資訊;所述麥克風的位置資訊;所述麥克風陣列周圍的點源噪聲;等方向性噪聲。其中,所述麥克風所在建築物的特徵資訊例如可以包括房屋的空間大小、空間結構(如階梯結構、橢圓結構等)。所述麥克風的位置資訊例如可以包括麥克風在建築物中的位置等。麥克風周圍的點源噪聲可以包括可以確定具體位置的點狀聲源所產生的噪聲,例如某人的說話聲、特定位置播放音樂的聲音等。等方向性噪聲可以包括空間性的背景噪聲,如風聲、道路上的噪聲等等。在確定背景環境的因素之後,可以獲取所述背景環境對麥克風所產生的衝激響應資訊。具有的獲取衝擊響應資訊的方式可以參考上述實施例所描述的方式,如透過測試的方式獲取,即在麥克風較遠的位置播放測試信號,根據麥克風接收到的信號與播放的測試信號可以計算得到背景環境對麥克風所產生的衝擊響應資訊。當然,在其他實施方式中,可以利用軟體進行模擬計算得到,本申請在此不做限制。
在利用所述語音資料模擬遠場語音資料的實施例中,根據聲音傳播的時序資訊,可以首先確定麥克風箱體外的背景環境對麥克風的影響,如確定背景環境對麥克風的衝擊響應資訊。然後,將背景環境對麥克風的衝擊響應資訊與所述語音資料進行卷積處理,生成初步處理語音資料。再將所述初步處理語音資料與所述麥克風箱體對所述麥克風的衝擊響應資訊進行卷積處理,生成所述麥克風的模擬遠場語音資料。在一個示例中,可以利用下述公式計算得到模擬遠場語音資料:
其中,y(t)為模擬產生的遠場語音資料,x(t)為所述語音資料,hs (t)為建築物特徵資訊、麥克風位置等背景環境對麥克風的衝擊響應資訊,dj (t)為點源噪聲,hj (t)為點源噪聲對麥克風產生的衝擊響應資訊,由於點源噪聲可以包括多個,因此需要對多個點源噪聲的影響進行疊加處理,n(t)為等方向性噪聲,hm (t)為麥克風箱體的特徵資訊對麥克風產生的衝激響應資訊。
在本申請的一個實施例中,還可以利用透過麥克風陣列錄製的語音資料模擬遠場語音資料。麥克風陣列在語音識別過程中具有噪聲抑制、回聲抑制、去混響、單聲源或多聲源定位、聲源數目估計、聲源分離等作用。例如,在噪聲抑制的過程中,可以利用多個麥克風接收到聲波的相位之間的差異對聲波進行過濾,能最大限度將環境背景聲音濾掉,只剩下需要的聲波。對於在嘈雜的環境下採用麥克風陣列配置的設備,能使用戶聽起來很清晰,無雜音。本實施例中,可以獲取由多個麥克風組成的麥克風陣列錄製的語音資料,其中,所述多個麥克風分別設置於麥克風箱體中。然後,可以分別獲取所述麥克風箱體的特徵資訊,並將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。類似於上述實施例的描述,本實施例中,也可以分別根據所述特徵資訊,確定所述麥克風箱體對所對應麥克風的衝擊響應資訊。在獲取到各個麥克風箱體對麥克風的衝擊響應之後,可以將所述衝擊響應資訊與所述麥克風錄製的語音資料進行卷積處理。在利用所述語音資料模擬遠場語音資料的的示例中,對於具有四個麥克風的麥克風陣列,可以利用下述公式計算麥克風陣列的模擬遠場語音資料:
其中,y1 (t)-y4 (t)分別為模擬產生的第1-4個麥克風的遠場語音資料,x(t)為所述語音資料,hm1 (t)-hm4 (t)分別為第1-4個麥克風的麥克風箱體對麥克風產生的衝激響應資訊。
同樣地,在本申請的一個實施例中,還可以將所述麥克風箱體之外的背景環境所帶來的影響混響至所述語音資料中。所述背景環境包括下述中的至少一種:所述多個麥克風所在建築物的特徵資訊;所述多個麥克風的位置資訊;所述麥克風陣列的佈局;所述麥克風陣列周圍的點源噪聲;等方向性噪聲。其中,所述多個麥克風所在建築物的特徵資訊、所述多個麥克風的位置資訊、所述麥克風陣列周圍的點源噪聲、等方向性噪聲可以參考上述實施例的描述,在此不再贅述。麥克風陣列的佈局對聲音的效果也具有一定的影響,例如,麥克風陣列有線形、環形、球形等多種佈局方式,不同的佈局方式具有不同的聲音效果。基於此,在本申請利用所述語音資料模擬遠場語音資料的的一個示例中,對於具有4個麥克風的麥克風陣列,可以利用下述公式計算麥克風陣列的模擬遠場語音資料:
其中,y1 (t)-y4 (t)分別為模擬產生的第1-4個麥克風的遠場語音資料,x(t)為語音資料,hs1 (t)-hs4 (t)為建築物特徵資訊、麥克風位置、麥克風佈局等背景環境分別對第1-4個麥克風的衝擊響應資訊,hj1 (t)-hj4 (t)為麥克風陣列周圍的點源噪聲分別對第1-4個麥克風的衝擊響應資訊,n(t)為等方向性噪聲,hm1 (t)-hm4 (t)分別為第1-4個麥克風的麥克風箱體對麥克風產生的衝激響應資訊。
本申請提供的語音資料處理方法,可以獲取設置有麥克風的麥克風箱體的特徵資訊,並將所述特徵資訊混響至所述麥克風錄製的語音資料中。相對於現有技術中將環境特徵資訊混響至語音資料中的方法相比,本申請提供的語音資料處理方法具有下述優勢:
(1)現有技術中的語音資料處理方式只考慮到建築物結構、等方向背景噪聲等因素對聲音傳播的影響,而沒有考慮到麥克風箱體對聲音傳播的影響。由於具有不同特徵的麥克風箱體對聲波的影響不相同,本申請實施例提供的語音資料處理方法,可以將麥克風箱體對聲波的影響融合至利用語音資料中;
(2)本申請提供的語音處理方式可以應用於模擬遠場語音資料中,與現有技術中利用近場語音資料模擬遠場語音資料的方式相比,利用本申請各個實施例方法模擬得到的遠場語音資料更加接近於真實場景中的遠場語音資料。另外,一方面,可以降低獲取遠場語音資料的成本,另一方面,利用強健性較高的遠場語音資料進行遠場語音模型訓練,可以獲取具有較高準確性的遠場語音模型,該遠場語音模型對於後續的遠場語音識別具有重要的意義。
如圖3所示,本申請另一方面還提供一種語音資料處理裝置,圖3是本申請提供的語音資料處理裝置的一種實施例的模組結構示意圖,所述裝置包括處理器以及用於儲存處理器可執行指令的儲存器,所述處理器執行所述指令時可以實現:
獲取麥克風錄製的語音資料;
確定所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
可選的,在本申請的一個實施例中,所述處理器在實現步驟將所述麥克風箱體的所述特徵資訊混響至所述語音資料中時可以包括:
根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊;
將所述衝擊響應資訊與所述語音資料進行卷積處理。
可選的,在本申請的一個實施例中,所述處理器在實現步驟將所述麥克風箱體的所述特徵資訊混響至所述語音資料中時可以包括:
獲取所述麥克風箱體之外的背景環境對所述麥克風的衝擊響應資訊;
將所述背景環境對所述麥克風的衝擊響應資訊與所述語音資料進行卷積處理,生成初步處理語音資料;
根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊;
將所述初步處理語音資料與所述麥克風箱體對所述麥克風的衝擊響應資訊進行卷積處理。
可選的,在本申請的一個實施例中,所述背景環境可以包括下述中的至少一種:
所述麥克風所在建築物的特徵資訊;
所述麥克風的位置資訊;
所述麥克風周圍的點源噪聲;
等方向性噪聲。
可選的,在本申請的一個實施例中,所述麥克風箱體的所述特徵資訊可以包括下述中的至少一種:大小、結構、材質。
可選的,在本申請的一個實施例中,所述處理器在實現步驟根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊時可以包括:
利用測試麥克風接收測試信號,所述測試麥克風設置於具有所述特徵資訊的麥克風箱體中;
根據所述測試信號計算得到所述麥克風箱體對所述麥克風的衝擊響應資訊。
可選的,在本申請的一個實施例中,所述處理器在實現步驟根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊時可以包括:
從麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係資料源中獲取具有所述特徵資訊的麥克風箱體對麥克風的衝擊響應資訊;其中,所述關聯關係資料源按照下述方式獲取:
設置多個具有不同預設特徵資訊的麥克風箱體,所述麥克風箱體中設置有麥克風;
透過測試方式分別獲取所述多個麥克風箱體中麥克風的衝擊響應資訊;
將所述多個麥克風箱體中麥克風的衝擊響應資訊進行擬合處理,生成麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係。
本申請還提供語音資料處理裝置的另一種實施例,所述裝置可以包括處理器以及用於儲存處理器可執行指令的儲存器,所述處理器執行所述指令時可以實現:
獲取由多個麥克風組成的麥克風陣列錄製的語音資料;
分別獲取所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
可選的,在本申請的一個實施例中,所述處理器在實現步驟將所述麥克風箱體的所述特徵資訊混響至所述語音資料中時可以包括:
分別根據所述特徵資訊,確定所述麥克風箱體對所對應麥克風的衝擊響應資訊;
將所述衝擊響應資訊與所述麥克風錄製的語音資料進行卷積處理。
可選的,在本申請的一個實施例中,所述處理器在實現步驟將所述麥克風箱體的所述特徵資訊混響至所述語音資料中時可以包括:
分別獲取所述麥克風箱體之外的背景環境對所對應麥克風的衝擊響應資訊;
將所述背景環境對所述麥克風的衝擊響應資訊與所述麥克風錄製的語音資料進行卷積處理,生成初步處理語音資料;
分別根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊;
分別將所述初步處理語音資料與所述麥克風箱體對所述麥克風的衝擊響應資訊進行卷積處理。
可選的,在本申請的一個實施例中,所述背景環境可以包括下述中的至少一種:
所述多個麥克風所在建築物的特徵資訊;
所述多個麥克風的位置資訊;
所述麥克風陣列的佈局;
所述麥克風陣列周圍的點源噪聲;
等方向性噪聲。
本申請另一方面還提供一種計算機可讀儲存媒體,其上儲存有計算機指令,所述指令被執行時實現上述任一實施例所述方法的步驟。
所述計算機可讀儲存媒體可以包括用於儲存資訊的物理裝置,通常是將資訊數位化後再以利用電、磁或者光學等方式的媒體加以儲存。本實施例所述的計算機可讀儲存媒體有可以包括:利用電能方式儲存資訊的裝置如,各式儲存器,如RAM、ROM等;利用磁能方式儲存資訊的裝置如,硬碟、軟碟、磁帶、磁芯儲存器、磁泡儲存器、U碟;利用光學方式儲存資訊的裝置如,CD或DVD。當然,還有其他方式的可讀儲存媒體,例如量子儲存器、石墨烯儲存器等等。
在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極管、晶體管、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程編程到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可編程邏輯裝置(
Programmable Logic Device, PLD)(例如現場可編程閘陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由用戶對裝置編程來確定。由設計人員自行編程來把一個數位系統“集成”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片2。而且,如今,取代手工地製作積體電路晶片,這種編程也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始代碼也得用特定的編程語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell
University Programming Language)、HDCal、
JHDL(Java Hardware Description Language)、Lava、
Lola、MyHDL、PALASM、RHDL(Ruby Hardware
Description Language)等,目前最普遍使用的是VHDL (Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog2。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯編程並編程到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。
本領域技術人員也知道,除了以純計算機可讀程式代碼方式實現控制器以外,完全可以透過將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用積體電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。
透過以上的實施方式的描述可知,本領域的技術人員可以清楚地瞭解到本申請可借助軟體加必需的通用硬體平台的方式來實現。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品可以儲存在儲存媒體中,如ROM/RAM、磁碟、光碟等,包括若干指令用以使得一台計算機設備(可以是個人計算機,伺服器,或者網路設備等)執行本申請各個實施方式或者實施方式的某些部分所述的方法。
雖然透過實施方式描繪了本申請,本領域普通技術人員知道,本申請有許多變形和變化而不脫離本申請的精神,希望所附的申請專利範圍包括這些變形和變化而不脫離本申請的精神。
為了方便本領域技術人員理解本申請實施例提供的技術方案,下面首先透過圖1對技術方案實現的技術環境進行說明。
現有技術中,通常利用近場語音資料模擬遠場語音資料,其中近場語音資料可以透過麥克風或者麥克風陣列等音頻錄製設備拾取。在利用近場語音資料模擬遠場語音資料的過程中,可以獲取在遠場語音環境中周圍環境因素對音頻錄製設備的衝擊響應。現有技術中通常考慮到的周圍環境因素可以包括建築物空間大小、音頻錄製設備的空間位置等因素。當然,還可以考慮到影響到音頻錄製設備的等方向性背景噪聲等。在一個示例中,對於單個麥克風錄製的近場語音資料,可以利用下述表達式(1)模擬計算遠場語音資料:
其中,y(t)為模擬產生的遠場語音資料,x(t)為近場語音資料,hs (t)為由建築物空間大小、音頻錄製設備位置等環境因素對所述音頻錄製設備所產生的衝擊響應,n(t)為等方向性背景噪聲。
透過上述表達式(1)所示的遠場語音資料的計算公式可以發現,在計算過程中,只考慮到建築物空間大小、音頻錄製設備位置、背景噪聲等環境因素對錄製設備所產生的衝擊響應。但是在實際的遠場語音環境中,能夠對錄製的遠場語音資料產生的環境因素遠不止上述公式(1)中所體現的因素。因此,利用類似於上述公式(1)模擬計算得到的遠場語音資料往往與真實場景中的遠場語音資料不相符合。
基於類似於上文所述的技術需求,本申請提供一種語音資料處理方法,該方法可以將影響遠場語音環境中的多個其他環境因素融合至近場語音資料模擬遠場語音資料的過程中,獲取到強健性更強的模擬遠場語音資料。具體的,其中一個重要的環境因素可以包括麥克風所在麥克風箱體的特徵資訊。當然,本申請提供的語音資料處理技術不僅應用於利用語音資料模擬遠場語音資料的場景中,還可以應用到例如語音識別等任何語音處理的場景中。
下面透過一個具體的應用場景說明本申請提供的實施例方法,如圖1所示,在錄製語音資料的房間裡,設置有由四個麥克風組成的麥克風陣列。在利用所述麥克風陣列錄製完成語音資料之後,可以按照圖1虛線框內的方式將所述語音資料模擬成遠場語音資料。如圖1所示的公式,y1 (t)-y4 (t)分別為模擬產生的第1-4個麥克風的遠場語音資料,x(t)為錄製的語音資料,hs1 (t)-hs4 (t)為建築物特徵資訊、麥克風位置、麥克風佈局等背景環境分別對第1-4個麥克風的衝擊響應資訊,hj1 (t)-hj4 (t)為麥克風陣列周圍的點源噪聲分別對第1-4個麥克風的衝擊響應資訊,n(t)為等方向性噪聲,hm1 (t)-hm4 (t)分別為第1-4個麥克風的麥克風箱體對麥克風產生的衝激響應資訊。對於上述房間而言,房間牆壁上的音樂播放器5所產生的音樂可以確定為點源噪聲,當然,所述點源噪聲可以包括房間中其他人說話的聲音等。另外,房間外的風聲、馬路上車輛行駛的聲音也是遠場語音資料中的一部分,而這些聲音距離麥克風陣列都很遠,且產生的效果幾乎相同,因此,這些噪聲可以確定為等方向性噪聲。當然,上述點源噪聲、等方向性噪聲不僅可以在現實環境中添加,還可以利用聲音模擬軟體中添加,在此不做限制。
圖1公式中所示的衝擊響應可以透過測試或者軟體模擬等方式獲取得到,具體說明可以參考以下各個實施例,在此不做贅述。在本實施例中,考慮到麥克風箱體所述語音資料所產生的影響,在利用所述語音資料模擬遠場語音資料的過程中,可以將麥克風箱體的特徵資訊混響至所述語音資料中,具體地,所述麥克風箱體的特徵資訊可以包括下述中的至少一種:麥克風箱體的大小、形狀、材質等。衝激響應資訊hm1 (t)-hm4 (t)可以根據真實環境測試或者軟體模擬得到,具體說明可以參考以下各個實施例,在此不做贅述。
下面結合附圖對本申請所述的語音資料處理方法進行詳細的說明。圖2是本申請提供的語音資料處理方法的一種實施例的方法流程圖。雖然本申請提供了如下述實施例或附圖所示的方法操作步驟,但基於常規或者無需創造性的勞動在所述方法中可以包括更多或者更少的操作步驟。在邏輯性上不存在必要因果關係的步驟中,這些步驟的執行順序不限於本申請實施例提供的執行順序。所述方法在實際中的語音資料處理過程中,可以按照實施例或者附圖所示的方法順序執行或者並行執行(例如並行處理器或者多線程處理的環境)。
具體的本申請提供的語音資料處理方法的一種實施例如圖2所示,所述方法可以包括:
S201:獲取麥克風錄製的語音資料。
S203:確定所述麥克風所處的麥克風箱體的特徵資訊。
S205:將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
本實施例中,所述語音資料可以包括近場語音資料,所述近場語音資料可以包括從距離麥克風較近的聲源處錄製的語音資料,通常情況下,當麥克風距離聲源小於聲音的波長時,可以確定錄製的語音資料為近場語音資料。所述語音資料可以是實時錄製的語音資料,也可以是從已經錄製完成的用於訓練的語音資料。在本申請的一個實施例中,所述語音資料中包含語音,以用於語音識別的場景,當然,所述語音資料中還可以包括環境噪聲等。本實施例中,所述麥克風設置於麥克風箱體中,具體地,所述麥克風可以設置於麥克風箱體的外壁、內壁、麥克風箱體的腔體內等位置處,對此不做限制。所述麥克風箱體可以包括內置有麥克風的客戶端的外殼,所述客戶端是台式電腦、平板電腦、筆記型電腦、智慧手機、數位助理、智慧可穿戴設備、導購終端、電視機、智慧音箱等。其中,智慧可穿戴設備包括但不限於智慧手環、智慧手錶、智慧眼鏡、智慧頭盔、智慧項鍊等。
在實際應用中,聲音作為一種波,在麥克風箱體中可以發生反射、散射等現象。因此,當麥克風置於在不同的麥克風箱體中時,獲取的聲音的效果也不相同。因此,在利用所述語音資料模擬遠場語音資料或者獲取受周圍環境影響後的語音資料的過程中時,語音資料可以在設置有麥克風的麥克風箱體中產生不同的效果。基於此,本實施例中,可以將麥克風箱體的特徵資訊混響至所述語音資料中。其中,所述麥克風箱體的特徵資訊可以包括下述中的至少一種:麥克風箱體的大小、形狀、材質等。例如,對於麥克風箱體的大小來說,麥克風箱體中的腔體越大時,人耳所能感受的聲音越厚重。對於聲音信號處理過程,當麥克風箱體中的腔體越大時,麥克風箱體對麥克風箱體中麥克風的衝擊響應的效果越穩定。當麥克風箱體中的腔體越小時,麥克風箱體對麥克風箱體中麥克風的衝擊響應體現下述現象:在低音部分具有較強的增益,在高音部分逐漸衰減,在發生共振的頻率處增益會突然增大。再如,對於麥克風箱體的材質而言,木質的麥克風箱體往往低音效果比塑料、金屬等其他材質的麥克風箱體要好,因此,不同材質的麥克風箱體對聲音的混響效果不同。另外,麥克風箱體的形狀對於聲音的影響也不相同,例如,圓柱形的麥克風箱體對聲音的混響效果比長方體的麥克風箱體好,因此,不同形狀的麥克風箱體對聲音的混響效果不相同。當然,在其他實施例中,所述麥克風箱體的特徵資訊還可以包括其他任何能夠影響到聲音效果的資訊,在此不做限制。
基於上述具有不同特徵資訊的麥克風箱體對麥克風接收語音資料所產生的影響,在本申請實施例中,可以基於所述麥克風箱體的所述特徵資訊,利用所述語音資料模擬遠場語音資料或者獲取受周圍環境影響後的語音資料。例如,在利用所述語音資料模擬遠場語音資料的過程中,在聲場模型中,具有近場模型和遠場模型兩種,近場模型可以將聲波看成球面波,而遠場模型則可以將聲波看成平面波,近似認為各接收信號之間是簡單的時延關係。那麼,在利用語音資料模擬遠場語音的過程中,可以將語音資料經過空間傳輸和建築物反射等處理,生成到達麥克風的模擬遠場語音資料。在本申請的一個實施例中,對所述語音資料的處理方式可以包括將麥克風箱體對麥克風的衝擊響應資訊與語音資料進行卷積處理。其中,所述麥克風箱體對所述麥克風的衝擊響應資訊可以根據所述麥克風箱體的特徵資訊確定。
在本申請的一個實施例中,可以透過測試的方式獲取所述麥克風箱體對所述麥克風的衝擊響應資訊。具體地,可以獲取具有所述預設特徵資訊的麥克風箱體,且所述麥克風設置於所述麥克風箱體中。在獲取衝擊響應資訊的過程中,可以播放測試信號,並利用設置於所述麥克風箱體中的麥克風接收所述測試信號。基於此,可以根據麥克風接收到的測試信號與播放的測試信號,計算得到所述麥克風箱體對所述麥克風的衝擊響應資訊。
在本申請的另一個實施例中,還可以從麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係資料源中獲取麥克風箱體對麥克風的衝擊響應資訊。也就是說,根據所述麥克風箱體的特徵資訊,從關聯關係資料源中查詢得到麥克風箱體對麥克風的衝擊響應資訊。其中,所述關聯關係資料源可以按照下述方式獲取:設置多個具有不同預設特徵資訊的麥克風箱體,所述麥克風箱體中設置有麥克風。然後,可以透過測試方式分別獲取所述多個麥克風箱體中麥克風的衝擊響應資訊。在獲取到多個麥克風箱體中麥克風的衝擊響應資訊之後,可以對所述多個麥克風箱體中麥克風的衝擊響應資訊進行擬合處理,生成麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係。在一個示例中,可以獲取多個不同尺寸的木質圓柱體音箱,每個音箱均設置有麥克風,如音箱的尺寸有3寸、5寸、8寸、10寸等等。透過測試的方式可以獲取上述多個尺寸的音箱中麥克風的衝擊響應資訊。所述衝擊響應資訊可以包括帶通濾波器,所述帶通濾波器可以包括上、下截止頻率、增益等參數。由於音箱的尺寸不相同,因此對麥克風的衝擊響應資訊也不相同。在獲取到多個尺寸的麥克風箱體對麥克風的衝擊響應資訊之後,可以對所述衝激響應資訊進行擬合處理,生成麥克風箱體的尺寸與麥克風箱體中麥克風沖進相應資訊之間的關聯關係。例如,根據擬合得到的關聯關係,可以推斷出7寸木質圓柱體音箱的麥克風箱體對麥克風的衝擊響應資訊。
本實施例中,在獲取到麥克風的衝擊響應資訊之後,可以利用將所述語音資料和所述衝擊響應資訊進行卷積的方式將所述麥克風的所述特徵資訊混響至所述語音資料中。例如,在利用所述語音資料模擬遠場語音資料過程中,可以按照下述計算公式計算得到遠場語音資料:
其中,y(t)為模擬產生的遠場語音資料,x(t)為語音資料,hm (t)為麥克風箱體對麥克風的衝擊響應資訊。
在本申請的一個實施例中,還可以先將所述麥克風箱體之外的背景環境所帶來的影響混響至所述語音資料中。具體地,所述背景環境可以包括下述中的至少一種:所述麥克風所在建築物的特徵資訊;所述麥克風的位置資訊;所述麥克風陣列周圍的點源噪聲;等方向性噪聲。其中,所述麥克風所在建築物的特徵資訊例如可以包括房屋的空間大小、空間結構(如階梯結構、橢圓結構等)。所述麥克風的位置資訊例如可以包括麥克風在建築物中的位置等。麥克風周圍的點源噪聲可以包括可以確定具體位置的點狀聲源所產生的噪聲,例如某人的說話聲、特定位置播放音樂的聲音等。等方向性噪聲可以包括空間性的背景噪聲,如風聲、道路上的噪聲等等。在確定背景環境的因素之後,可以獲取所述背景環境對麥克風所產生的衝激響應資訊。具有的獲取衝擊響應資訊的方式可以參考上述實施例所描述的方式,如透過測試的方式獲取,即在麥克風較遠的位置播放測試信號,根據麥克風接收到的信號與播放的測試信號可以計算得到背景環境對麥克風所產生的衝擊響應資訊。當然,在其他實施方式中,可以利用軟體進行模擬計算得到,本申請在此不做限制。
在利用所述語音資料模擬遠場語音資料的實施例中,根據聲音傳播的時序資訊,可以首先確定麥克風箱體外的背景環境對麥克風的影響,如確定背景環境對麥克風的衝擊響應資訊。然後,將背景環境對麥克風的衝擊響應資訊與所述語音資料進行卷積處理,生成初步處理語音資料。再將所述初步處理語音資料與所述麥克風箱體對所述麥克風的衝擊響應資訊進行卷積處理,生成所述麥克風的模擬遠場語音資料。在一個示例中,可以利用下述公式計算得到模擬遠場語音資料:
其中,y(t)為模擬產生的遠場語音資料,x(t)為所述語音資料,hs (t)為建築物特徵資訊、麥克風位置等背景環境對麥克風的衝擊響應資訊,dj (t)為點源噪聲,hj (t)為點源噪聲對麥克風產生的衝擊響應資訊,由於點源噪聲可以包括多個,因此需要對多個點源噪聲的影響進行疊加處理,n(t)為等方向性噪聲,hm (t)為麥克風箱體的特徵資訊對麥克風產生的衝激響應資訊。
在本申請的一個實施例中,還可以利用透過麥克風陣列錄製的語音資料模擬遠場語音資料。麥克風陣列在語音識別過程中具有噪聲抑制、回聲抑制、去混響、單聲源或多聲源定位、聲源數目估計、聲源分離等作用。例如,在噪聲抑制的過程中,可以利用多個麥克風接收到聲波的相位之間的差異對聲波進行過濾,能最大限度將環境背景聲音濾掉,只剩下需要的聲波。對於在嘈雜的環境下採用麥克風陣列配置的設備,能使用戶聽起來很清晰,無雜音。本實施例中,可以獲取由多個麥克風組成的麥克風陣列錄製的語音資料,其中,所述多個麥克風分別設置於麥克風箱體中。然後,可以分別獲取所述麥克風箱體的特徵資訊,並將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。類似於上述實施例的描述,本實施例中,也可以分別根據所述特徵資訊,確定所述麥克風箱體對所對應麥克風的衝擊響應資訊。在獲取到各個麥克風箱體對麥克風的衝擊響應之後,可以將所述衝擊響應資訊與所述麥克風錄製的語音資料進行卷積處理。在利用所述語音資料模擬遠場語音資料的的示例中,對於具有四個麥克風的麥克風陣列,可以利用下述公式計算麥克風陣列的模擬遠場語音資料:
其中,y1 (t)-y4 (t)分別為模擬產生的第1-4個麥克風的遠場語音資料,x(t)為所述語音資料,hm1 (t)-hm4 (t)分別為第1-4個麥克風的麥克風箱體對麥克風產生的衝激響應資訊。
同樣地,在本申請的一個實施例中,還可以將所述麥克風箱體之外的背景環境所帶來的影響混響至所述語音資料中。所述背景環境包括下述中的至少一種:所述多個麥克風所在建築物的特徵資訊;所述多個麥克風的位置資訊;所述麥克風陣列的佈局;所述麥克風陣列周圍的點源噪聲;等方向性噪聲。其中,所述多個麥克風所在建築物的特徵資訊、所述多個麥克風的位置資訊、所述麥克風陣列周圍的點源噪聲、等方向性噪聲可以參考上述實施例的描述,在此不再贅述。麥克風陣列的佈局對聲音的效果也具有一定的影響,例如,麥克風陣列有線形、環形、球形等多種佈局方式,不同的佈局方式具有不同的聲音效果。基於此,在本申請利用所述語音資料模擬遠場語音資料的的一個示例中,對於具有4個麥克風的麥克風陣列,可以利用下述公式計算麥克風陣列的模擬遠場語音資料:
其中,y1 (t)-y4 (t)分別為模擬產生的第1-4個麥克風的遠場語音資料,x(t)為語音資料,hs1 (t)-hs4 (t)為建築物特徵資訊、麥克風位置、麥克風佈局等背景環境分別對第1-4個麥克風的衝擊響應資訊,hj1 (t)-hj4 (t)為麥克風陣列周圍的點源噪聲分別對第1-4個麥克風的衝擊響應資訊,n(t)為等方向性噪聲,hm1 (t)-hm4 (t)分別為第1-4個麥克風的麥克風箱體對麥克風產生的衝激響應資訊。
本申請提供的語音資料處理方法,可以獲取設置有麥克風的麥克風箱體的特徵資訊,並將所述特徵資訊混響至所述麥克風錄製的語音資料中。相對於現有技術中將環境特徵資訊混響至語音資料中的方法相比,本申請提供的語音資料處理方法具有下述優勢:
(1)現有技術中的語音資料處理方式只考慮到建築物結構、等方向背景噪聲等因素對聲音傳播的影響,而沒有考慮到麥克風箱體對聲音傳播的影響。由於具有不同特徵的麥克風箱體對聲波的影響不相同,本申請實施例提供的語音資料處理方法,可以將麥克風箱體對聲波的影響融合至利用語音資料中;
(2)本申請提供的語音處理方式可以應用於模擬遠場語音資料中,與現有技術中利用近場語音資料模擬遠場語音資料的方式相比,利用本申請各個實施例方法模擬得到的遠場語音資料更加接近於真實場景中的遠場語音資料。另外,一方面,可以降低獲取遠場語音資料的成本,另一方面,利用強健性較高的遠場語音資料進行遠場語音模型訓練,可以獲取具有較高準確性的遠場語音模型,該遠場語音模型對於後續的遠場語音識別具有重要的意義。
如圖3所示,本申請另一方面還提供一種語音資料處理裝置,圖3是本申請提供的語音資料處理裝置的一種實施例的模組結構示意圖,所述裝置包括處理器以及用於儲存處理器可執行指令的儲存器,所述處理器執行所述指令時可以實現:
獲取麥克風錄製的語音資料;
確定所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
可選的,在本申請的一個實施例中,所述處理器在實現步驟將所述麥克風箱體的所述特徵資訊混響至所述語音資料中時可以包括:
根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊;
將所述衝擊響應資訊與所述語音資料進行卷積處理。
可選的,在本申請的一個實施例中,所述處理器在實現步驟將所述麥克風箱體的所述特徵資訊混響至所述語音資料中時可以包括:
獲取所述麥克風箱體之外的背景環境對所述麥克風的衝擊響應資訊;
將所述背景環境對所述麥克風的衝擊響應資訊與所述語音資料進行卷積處理,生成初步處理語音資料;
根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊;
將所述初步處理語音資料與所述麥克風箱體對所述麥克風的衝擊響應資訊進行卷積處理。
可選的,在本申請的一個實施例中,所述背景環境可以包括下述中的至少一種:
所述麥克風所在建築物的特徵資訊;
所述麥克風的位置資訊;
所述麥克風周圍的點源噪聲;
等方向性噪聲。
可選的,在本申請的一個實施例中,所述麥克風箱體的所述特徵資訊可以包括下述中的至少一種:大小、結構、材質。
可選的,在本申請的一個實施例中,所述處理器在實現步驟根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊時可以包括:
利用測試麥克風接收測試信號,所述測試麥克風設置於具有所述特徵資訊的麥克風箱體中;
根據所述測試信號計算得到所述麥克風箱體對所述麥克風的衝擊響應資訊。
可選的,在本申請的一個實施例中,所述處理器在實現步驟根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊時可以包括:
從麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係資料源中獲取具有所述特徵資訊的麥克風箱體對麥克風的衝擊響應資訊;其中,所述關聯關係資料源按照下述方式獲取:
設置多個具有不同預設特徵資訊的麥克風箱體,所述麥克風箱體中設置有麥克風;
透過測試方式分別獲取所述多個麥克風箱體中麥克風的衝擊響應資訊;
將所述多個麥克風箱體中麥克風的衝擊響應資訊進行擬合處理,生成麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係。
本申請還提供語音資料處理裝置的另一種實施例,所述裝置可以包括處理器以及用於儲存處理器可執行指令的儲存器,所述處理器執行所述指令時可以實現:
獲取由多個麥克風組成的麥克風陣列錄製的語音資料;
分別獲取所述麥克風所處的麥克風箱體的特徵資訊;
將所述麥克風箱體的所述特徵資訊混響至所述語音資料中。
可選的,在本申請的一個實施例中,所述處理器在實現步驟將所述麥克風箱體的所述特徵資訊混響至所述語音資料中時可以包括:
分別根據所述特徵資訊,確定所述麥克風箱體對所對應麥克風的衝擊響應資訊;
將所述衝擊響應資訊與所述麥克風錄製的語音資料進行卷積處理。
可選的,在本申請的一個實施例中,所述處理器在實現步驟將所述麥克風箱體的所述特徵資訊混響至所述語音資料中時可以包括:
分別獲取所述麥克風箱體之外的背景環境對所對應麥克風的衝擊響應資訊;
將所述背景環境對所述麥克風的衝擊響應資訊與所述麥克風錄製的語音資料進行卷積處理,生成初步處理語音資料;
分別根據所述特徵資訊,確定所述麥克風箱體對所述麥克風的衝擊響應資訊;
分別將所述初步處理語音資料與所述麥克風箱體對所述麥克風的衝擊響應資訊進行卷積處理。
可選的,在本申請的一個實施例中,所述背景環境可以包括下述中的至少一種:
所述多個麥克風所在建築物的特徵資訊;
所述多個麥克風的位置資訊;
所述麥克風陣列的佈局;
所述麥克風陣列周圍的點源噪聲;
等方向性噪聲。
本申請另一方面還提供一種計算機可讀儲存媒體,其上儲存有計算機指令,所述指令被執行時實現上述任一實施例所述方法的步驟。
所述計算機可讀儲存媒體可以包括用於儲存資訊的物理裝置,通常是將資訊數位化後再以利用電、磁或者光學等方式的媒體加以儲存。本實施例所述的計算機可讀儲存媒體有可以包括:利用電能方式儲存資訊的裝置如,各式儲存器,如RAM、ROM等;利用磁能方式儲存資訊的裝置如,硬碟、軟碟、磁帶、磁芯儲存器、磁泡儲存器、U碟;利用光學方式儲存資訊的裝置如,CD或DVD。當然,還有其他方式的可讀儲存媒體,例如量子儲存器、石墨烯儲存器等等。
在20世紀90年代,對於一個技術的改進可以很明顯地區分是硬體上的改進(例如,對二極管、晶體管、開關等電路結構的改進)還是軟體上的改進(對於方法流程的改進)。然而,隨著技術的發展,當今的很多方法流程的改進已經可以視為硬體電路結構的直接改進。設計人員幾乎都透過將改進的方法流程編程到硬體電路中來得到相應的硬體電路結構。因此,不能說一個方法流程的改進就不能用硬體實體模組來實現。例如,可編程邏輯裝置(
Programmable Logic Device, PLD)(例如現場可編程閘陣列(Field Programmable Gate Array,FPGA))就是這樣一種積體電路,其邏輯功能由用戶對裝置編程來確定。由設計人員自行編程來把一個數位系統“集成”在一片PLD上,而不需要請晶片製造廠商來設計和製作專用的積體電路晶片2。而且,如今,取代手工地製作積體電路晶片,這種編程也多半改用“邏輯編譯器(logic compiler)”軟體來實現,它與程式開發撰寫時所用的軟體編譯器相類似,而要編譯之前的原始代碼也得用特定的編程語言來撰寫,此稱之為硬體描述語言(Hardware Description Language,HDL),而HDL也並非僅有一種,而是有許多種,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell
University Programming Language)、HDCal、
JHDL(Java Hardware Description Language)、Lava、
Lola、MyHDL、PALASM、RHDL(Ruby Hardware
Description Language)等,目前最普遍使用的是VHDL (Very-High-Speed Integrated Circuit Hardware Description Language)與Verilog2。本領域技術人員也應該清楚,只需要將方法流程用上述幾種硬體描述語言稍作邏輯編程並編程到積體電路中,就可以很容易得到實現該邏輯方法流程的硬體電路。
本領域技術人員也知道,除了以純計算機可讀程式代碼方式實現控制器以外,完全可以透過將方法步驟進行邏輯編程來使得控制器以邏輯閘、開關、專用積體電路、可編程邏輯控制器和嵌入微控制器等的形式來實現相同功能。因此這種控制器可以被認為是一種硬體部件,而對其內包括的用於實現各種功能的裝置也可以視為硬體部件內的結構。或者甚至,可以將用於實現各種功能的裝置視為既可以是實現方法的軟體模組又可以是硬體部件內的結構。
透過以上的實施方式的描述可知,本領域的技術人員可以清楚地瞭解到本申請可借助軟體加必需的通用硬體平台的方式來實現。基於這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品可以儲存在儲存媒體中,如ROM/RAM、磁碟、光碟等,包括若干指令用以使得一台計算機設備(可以是個人計算機,伺服器,或者網路設備等)執行本申請各個實施方式或者實施方式的某些部分所述的方法。
雖然透過實施方式描繪了本申請,本領域普通技術人員知道,本申請有許多變形和變化而不脫離本申請的精神,希望所附的申請專利範圍包括這些變形和變化而不脫離本申請的精神。
1‧‧‧麥克風
2‧‧‧麥克風
3‧‧‧麥克風
4‧‧‧麥克風
5‧‧‧音樂播放器
為了更清楚地說明本申請實施方式或現有技術中的技術方案,下面將對實施方式或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施方式,對於本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是聲紋識別技術的基本原理圖;
圖2是本申請提供的語音資料處理方法的一種實施例的方法流程圖;
圖3是本申請提供的語音資料處理裝置的一種實施例的模組結構示意圖。
Claims (24)
- 一種語音資料處理方法,其特徵在於,該方法包括: 獲取麥克風錄製的語音資料; 確定該麥克風所處的麥克風箱體的特徵資訊; 將該麥克風箱體的該特徵資訊混響至該語音資料中。
- 根據申請專利範圍第1項所述的方法,其中,所述將該麥克風箱體的該特徵資訊混響至該語音資料中包括: 根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊; 將該衝擊響應資訊與該語音資料進行卷積處理。
- 根據申請專利範圍第1項所述的方法,其中,所述將該麥克風箱體的該特徵資訊混響至該語音資料中包括: 獲取該麥克風箱體之外的背景環境對該麥克風的衝擊響應資訊; 將該背景環境對該麥克風的衝擊響應資訊與該語音資料進行卷積處理,生成初步處理語音資料; 根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊; 將該初步處理語音資料與該麥克風箱體對該麥克風的衝擊響應資訊進行卷積處理。
- 根據申請專利範圍第3項所述的方法,其中,該背景環境包括下述中的至少一種: 該麥克風所在建築物的特徵資訊; 該麥克風的位置資訊; 該麥克風周圍的點源噪聲; 等方向性噪聲。
- 根據申請專利範圍第1項所述的方法,其中,該麥克風箱體的該特徵資訊包括下述中的至少一種:大小、結構、材質。
- 根據申請專利範圍第2項所述的方法,其中,所述根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊包括: 利用測試麥克風接收測試信號,該測試麥克風設置於具有該特徵資訊的麥克風箱體中; 根據該測試信號計算得到該麥克風箱體對該麥克風的衝擊響應資訊。
- 根據申請專利範圍第2項所述的方法,其中,所述根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊包括: 從麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係資料源中獲取具有該特徵資訊的麥克風箱體對麥克風的衝擊響應資訊;其中,該關聯關係資料源按照下述方式獲取: 設置多個具有不同預設特徵資訊的麥克風箱體,該麥克風箱體中設置有麥克風; 透過測試方式分別獲取該多個麥克風箱體中麥克風的衝擊響應資訊; 將該多個麥克風箱體中麥克風的衝擊響應資訊進行擬合處理,生成麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係。
- 一種語音資料處理方法,其特徵在於,該方法包括: 獲取由多個麥克風組成的麥克風陣列錄製的語音資料; 分別獲取該麥克風所處的麥克風箱體的特徵資訊; 將該麥克風箱體的該特徵資訊混響至該語音資料中。
- 根據申請專利範圍第8項所述的方法,其中,所述將該麥克風箱體的該特徵資訊混響至該語音資料中包括: 分別根據該特徵資訊,確定該麥克風箱體對所對應麥克風的衝擊響應資訊; 將該衝擊響應資訊與該麥克風錄製的語音資料進行卷積處理。
- 根據申請專利範圍第8項所述的方法,其中,所述將該麥克風箱體的該特徵資訊混響至該語音資料中包括: 分別獲取該麥克風箱體之外的背景環境對所對應麥克風的衝擊響應資訊; 將該背景環境對該麥克風的衝擊響應資訊與該麥克風錄製的語音資料進行卷積處理,生成初步處理語音資料; 分別根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊; 分別將該初步處理語音資料與該麥克風箱體對該麥克風的衝擊響應資訊進行卷積處理。
- 根據申請專利範圍第10項所述的方法,其中,該背景環境包括下述中的至少一種: 該多個麥克風所在建築物的特徵資訊; 該多個麥克風的位置資訊; 該麥克風陣列的佈局; 該麥克風陣列周圍的點源噪聲; 等方向性噪聲。
- 一種語音資料處理裝置,其特徵在於,包括處理器以及用於儲存處理器可執行指令的儲存器,該處理器執行該指令時實現: 獲取麥克風錄製的語音資料; 確定該麥克風所處的麥克風箱體的特徵資訊; 將該麥克風箱體的該特徵資訊混響至該語音資料中。
- 根據申請專利範圍第12項所述的裝置,其中,該處理器在實現步驟將該麥克風箱體的該特徵資訊混響至該語音資料中時包括: 根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊; 將該衝擊響應資訊與該語音資料進行卷積處理。
- 根據申請專利範圍第12項所述的裝置,其中,該處理器在實現步驟將該麥克風箱體的該特徵資訊混響至該語音資料中時包括: 獲取該麥克風箱體之外的背景環境對該麥克風的衝擊響應資訊; 將該背景環境對該麥克風的衝擊響應資訊與該語音資料進行卷積處理,生成初步處理語音資料; 根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊; 將該初步處理語音資料與該麥克風箱體對該麥克風的衝擊響應資訊進行卷積處理。
- 根據申請專利範圍第14項所述的裝置,其中,該背景環境包括下述中的至少一種: 該麥克風所在建築物的特徵資訊; 該麥克風的位置資訊; 該麥克風周圍的點源噪聲; 等方向性噪聲。
- 根據申請專利範圍第12項所述的裝置,其中,該麥克風箱體的該特徵資訊包括下述中的至少一種:大小、結構、材質。
- 根據申請專利範圍第13項所述的裝置,其中,該處理器在實現步驟根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊時包括: 利用測試麥克風接收測試信號,該測試麥克風設置於具有該特徵資訊的麥克風箱體中; 根據該測試信號計算得到該麥克風箱體對該麥克風的衝擊響應資訊。
- 根據申請專利範圍第13項所述的裝置,其中,該處理器在實現步驟根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊時包括: 從麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係資料源中獲取具有該特徵資訊的麥克風箱體對麥克風的衝擊響應資訊;其中,該關聯關係資料源按照下述方式獲取: 設置多個具有不同預設特徵資訊的麥克風箱體,該麥克風箱體中設置有麥克風; 透過測試方式分別獲取該多個麥克風箱體中麥克風的衝擊響應資訊; 將該多個麥克風箱體中麥克風的衝擊響應資訊進行擬合處理,生成麥克風箱體的特徵資訊與麥克風箱體中麥克風衝擊響應資訊之間的關聯關係。
- 一種語音資料處理裝置,其中,包括處理器以及用於儲存處理器可執行指令的儲存器,該處理器執行該指令時實現: 獲取由多個麥克風組成的麥克風陣列錄製的語音資料; 分別獲取該麥克風所處的麥克風箱體的特徵資訊; 將該麥克風箱體的該特徵資訊混響至該語音資料中。
- 根據申請專利範圍第19項所述的裝置,其中,該處理器在實現步驟將該麥克風箱體的該特徵資訊混響至該語音資料中時包括: 分別根據該特徵資訊,確定該麥克風箱體對所對應麥克風的衝擊響應資訊; 將該衝擊響應資訊與該麥克風錄製的語音資料進行卷積處理。
- 根據申請專利範圍第19項所述的裝置,其中,該處理器在實現步驟將該麥克風箱體的該特徵資訊混響至該語音資料中時包括: 分別獲取該麥克風箱體之外的背景環境對所對應麥克風的衝擊響應資訊; 將該背景環境對該麥克風的衝擊響應資訊與該麥克風錄製的語音資料進行卷積處理,生成初步處理語音資料; 分別根據該特徵資訊,確定該麥克風箱體對該麥克風的衝擊響應資訊; 分別將該初步處理語音資料與該麥克風箱體對該麥克風的衝擊響應資訊進行卷積處理。
- 根據申請專利範圍第21項所述的裝置,其中,該背景環境包括下述中的至少一種: 該多個麥克風所在建築物的特徵資訊; 該多個麥克風的位置資訊; 該麥克風陣列的佈局; 該麥克風陣列周圍的點源噪聲; 等方向性噪聲。
- 一種計算機可讀儲存媒體,其中,其上儲存有計算機指令,該指令被執行時實現申請專利範圍第1至7項中任一項所述方法的步驟。
- 一種計算機可讀儲存媒體,其中,其上儲存有計算機指令,該指令被執行時實現申請專利範圍第8至11項中任一項所述方法的步驟。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201810093648.6 | 2018-01-31 | ||
CN201810093648.6A CN110097871B (zh) | 2018-01-31 | 2018-01-31 | 一种语音数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201935461A true TW201935461A (zh) | 2019-09-01 |
Family
ID=67391644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107139466A TW201935461A (zh) | 2018-01-31 | 2018-11-07 | 語音資料處理方法及裝置 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11538471B2 (zh) |
CN (1) | CN110097871B (zh) |
TW (1) | TW201935461A (zh) |
WO (1) | WO2019152708A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335694B (zh) * | 2018-02-01 | 2021-10-15 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
CN110992974B (zh) * | 2019-11-25 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9026906D0 (en) * | 1990-12-11 | 1991-01-30 | B & W Loudspeakers | Compensating filters |
JP3460602B2 (ja) * | 1998-11-25 | 2003-10-27 | ヤマハ株式会社 | 反射音生成装置 |
US8036767B2 (en) * | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
US8363843B2 (en) | 2007-03-01 | 2013-01-29 | Apple Inc. | Methods, modules, and computer-readable recording media for providing a multi-channel convolution reverb |
US8644520B2 (en) * | 2010-10-14 | 2014-02-04 | Lockheed Martin Corporation | Morphing of aural impulse response signatures to obtain intermediate aural impulse response signals |
WO2015175511A1 (en) * | 2014-05-13 | 2015-11-19 | Crutchfield William G | Virtual simulation of spatial audio characteristics |
US10079012B2 (en) * | 2015-04-21 | 2018-09-18 | Google Llc | Customizing speech-recognition dictionaries in a smart-home environment |
CN105427860B (zh) * | 2015-11-11 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 远场语音识别方法和装置 |
CN106328126B (zh) * | 2016-10-20 | 2019-08-16 | 北京云知声信息技术有限公司 | 远场语音识别处理方法及装置 |
CN107481731B (zh) * | 2017-08-01 | 2021-01-22 | 百度在线网络技术(北京)有限公司 | 一种语音数据增强方法及系统 |
CN107452372B (zh) * | 2017-09-22 | 2020-12-11 | 百度在线网络技术(北京)有限公司 | 远场语音识别模型的训练方法和装置 |
-
2018
- 2018-01-31 CN CN201810093648.6A patent/CN110097871B/zh active Active
- 2018-11-07 TW TW107139466A patent/TW201935461A/zh unknown
-
2019
- 2019-01-31 US US16/264,518 patent/US11538471B2/en active Active
- 2019-01-31 WO PCT/US2019/016145 patent/WO2019152708A1/en active Application Filing
-
2022
- 2022-11-15 US US18/055,810 patent/US11869493B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11538471B2 (en) | 2022-12-27 |
WO2019152708A1 (en) | 2019-08-08 |
CN110097871B (zh) | 2023-05-12 |
US11869493B2 (en) | 2024-01-09 |
US20230075670A1 (en) | 2023-03-09 |
US20190237065A1 (en) | 2019-08-01 |
CN110097871A (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Szöke et al. | Building and evaluation of a real room impulse response dataset | |
CN110992974B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
WO2020108614A1 (zh) | 音频识别方法、定位目标音频的方法、装置和设备 | |
US10123140B2 (en) | Dynamic calibration of an audio system | |
CN112106385B (zh) | 一种用于声音建模和呈现的系统 | |
US11032662B2 (en) | Adjusting audio characteristics for augmented reality | |
WO2020103703A1 (zh) | 一种音频数据处理方法、装置、设备及存储介质 | |
CN106537501B (zh) | 混响估计器 | |
CN111161752A (zh) | 回声消除方法和装置 | |
RU2685053C2 (ru) | Оценка импульсной характеристики помещения для подавления акустического эха | |
JP2013117728A (ja) | 信号分離のためのシステム、方法、および装置 | |
KR102087307B1 (ko) | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 | |
US11869493B2 (en) | Method and apparatus for audio data processing | |
US10393571B2 (en) | Estimation of reverberant energy component from active audio source | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN108476072A (zh) | 用于声音识别的众包数据库 | |
Ganguly et al. | Real-time Smartphone implementation of noise-robust Speech source localization algorithm for hearing aid users | |
WO2023287773A1 (en) | Speech enhancement | |
CN110232909A (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
WO2023246327A1 (zh) | 音频信号处理方法、装置和计算机设备 | |
CN105308939B (zh) | 减小的声学耦合 | |
WO2023287782A1 (en) | Data augmentation for speech enhancement | |
CN104918182A (zh) | 啸叫检测与抑制系统 | |
Küçük | Real Time Implementation of Direction of Arrival Estimation on Android Platforms for Hearing Aid Applications | |
Juang et al. | Joint source-channel modeling and estimation for speech dereverberation |