TWI484483B - 增加語音清晰度的方法和裝置以及運算裝置 - Google Patents

增加語音清晰度的方法和裝置以及運算裝置 Download PDF

Info

Publication number
TWI484483B
TWI484483B TW102105328A TW102105328A TWI484483B TW I484483 B TWI484483 B TW I484483B TW 102105328 A TW102105328 A TW 102105328A TW 102105328 A TW102105328 A TW 102105328A TW I484483 B TWI484483 B TW I484483B
Authority
TW
Taiwan
Prior art keywords
signal
noise
sound signal
audio signal
increasing
Prior art date
Application number
TW102105328A
Other languages
English (en)
Other versions
TW201335931A (zh
Inventor
Jen Po Hsiao
ting wei Sun
Hann-Shi Tong
Original Assignee
Htc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Htc Corp filed Critical Htc Corp
Publication of TW201335931A publication Critical patent/TW201335931A/zh
Application granted granted Critical
Publication of TWI484483B publication Critical patent/TWI484483B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Description

增加語音清晰度的方法和裝置以及運算裝置
本發明是有關於增加語音清晰度,且特別是有關於增加語音清晰度的方法和裝置以及運算裝置。
通話的聲音品質是行動電話使用者重要的使用經驗。部分行動電話利用雜訊降低技術來減少發話聲音訊號中夾帶的環境雜訊從而改善通話中發話聲音品質。又環境雜訊可能會劣化來話聲音訊號的品質。此時,行動電話使用者必須手動增大行動電話的音量。若音量過大,這種做法除了不方便以外,又未必能獲得合適的聆聽品質。
本發明係關於增加語音清晰度的方法和裝置以及運算裝置。
本發明提出一種增加語音清晰度的方法的一實施例。此方法包括以下步驟。對運算裝置之至少一麥克風所檢測到的一聲音訊號進行語音活動檢測從而檢測環境雜訊。根據檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊。利用運算裝置依據雜訊資訊和第一聲音訊號且按照一可調的動態餘量來增強第一聲音訊號從而輸出一第二聲音訊號。
另一實施例提出一種增加語音清晰度的裝置。此裝置包括環境雜訊決定單元和清晰度增加單元。環境雜訊決定 單元用以根據運算裝置之至少一麥克風所檢測到的一聲音訊號從而檢測環境雜訊。清晰度增加單元耦接環境雜訊決定單元,用以根據檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊,以及根據雜訊資訊和第一聲音訊號且按照一可調的動態餘量來增強第一聲音訊號從而輸出一第二聲音訊號。
又一實施例提出一種運算裝置。此運算裝置包括至少一麥克風、用以控制運算裝置的處理單元、通訊單元。訊號處理單元,耦接處理單元和通訊單元,用以增加運算裝置的語音清晰度,其包括環境雜訊決定單元和清晰度增加單元。環境雜訊決定單元用以根據運算裝置之至少一麥克風所檢測到的一聲音訊號從而檢測環境雜訊。清晰度增加單元,耦接環境雜訊決定單元,用以根據檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊,以及根據雜訊資訊和第一聲音訊號且按照一可調的動態餘量來增強第一聲音訊號從而輸出一第二聲音訊號。
為了對本發明之上述及其他方面有更佳的瞭解,下文舉多種實施例,並配合所附圖式,作詳細說明如下:
以下提出增加運算裝置中如重現訊號的語音清晰度的方法和裝置以及運算裝置的實施例。第1圖繪示一種增加語音清晰度的方法的實施例的流程圖。依據此方法之一實施例,通話中的下行語音的語音清晰度得以改善,而就算在吵雜的環境中打電話或接電話,亦能如此。在其他實 施例中,此方法亦可增加聽覺音重現時的清晰度,縱使環境雜訊大時,亦能如此,而聽覺音重現的場合譬如:來自多媒體資料源所播放語音檔案、多媒體檔案、串流語音或視訊(例如:在運算裝置上觀看YouTube的視訊)。再者,實現增加語音清晰度時,可額外加上保護運算裝置的硬體線路和使用者聽覺的設計。
此方法可應用於運算裝置,譬如是具有語音通訊功能(如電話、行動通訊、網路電路VoIP等等)的運算裝置,例如:行動電話、智慧型電話、平板電腦、筆記型電腦等等。第2圖繪示一種架構之實施例,依據此架構可衍生出運算裝置,其中行動裝置2包括訊號處理單元21、通訊單元23、處理單元25(例如具有單核心或多核心處理單元)、至少一麥克風M1和至少一揚聲器SK1。此方法例如可應用於訊號處理單元21,其接收來自通訊單元23的下行語音訊號(SRx)和輸出上行語音訊號(STx)至通訊單元23,其中通訊單元23支援一或多種通訊標準,例如2G、3G、3.5G、長期演進技術(LTE)、4G。
在其他例子中,此方法可應用於具有多媒體功能的運算裝置中以增加其聲音清晰度,而運算裝置例如是個人電腦、手提電腦、多媒體裝置、遊戲機等等。例如,此方法可應用在訊號處理單元21中,於重現一多媒體資料源即播放其聲音或多媒體資料之時,訊號處理單元21接收來自處理單元25或通訊單元23(或多媒體晶片或資料源)的聲音訊號(記作SRx),其中多媒體資料源例如是儲存在運算裝置的音樂或視訊檔案,或來自遠端裝置、網站或網路 雲端中的裝置之串流聲音或視訊(如在運算裝置上觀目YouTube)。又此方法可應用於具有無線網路功能(如Wi-Fi)的行動裝置上以增加基於網際網路協定(Internet protocol)的語音通訊或串流多媒體的聲音清晰度。
請參考第1圖,在步驟S10中,例如進行語音活動檢測(voice activity detection,VAD),依據檢測到的聲音訊號以檢測環境雜訊。檢測到的聲音訊號例如是來自至少一麥克風(例如麥克風M1)的訊號,此訊號於通話的場合中(例如:電話、行動通訊或VoIP網路電話)需要上傳,而於聲音或多媒體重現之場合中此訊號則不需上傳。在步驟S20中,根據檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊,其中第一聲音訊號的聲音清晰將得以增加,而第一聲音訊號例如是一下行語音訊號(例如SRx),或來自訊號處理單元21、多媒體晶片或資料源的聲音訊號。在步驟S30中,依據雜訊資訊和第一聲音訊號從而輸出(例如增強或放大)一第二聲音訊號。然後,第二聲音訊號可被視為第一聲音訊號的一個聲音清晰度增加後的版本。在一些例子中,運算裝置利用揚聲器或耳機播放第二聲音訊號(得用數位或類比方式呈現),或輸出第二聲音訊號以作其用途,例如由運算裝置錄音、由外部揚聲器重現、或透過運算裝置作無線廣播。
在一實施例中,步驟S30利用運算裝置依據雜訊資訊和第一聲音訊號且按照一可調的動態餘量(headroom)來增強第一聲音訊號從而輸出第二聲音訊號。在一些實施例中,雜訊資訊代表針對第一聲音訊號之檢測到的環境雜訊 的度量水平。例如,在步驟S30中,可利用雜訊資訊例如訊雜比(SNR)、雜訊強度或其他雜訊度量以來增強第一聲音訊號。
如第1圖的方法所示,使用語音活動檢測從檢測到的聲音訊號中檢測出環境雜訊能有助於增加第一聲音訊號(例如是下行語音訊號SRx或欲重現的聲音訊號)的聲音清晰度。吾人應注意到,使用語音活動檢測而檢測到的環境雜訊的準確度能足以讓步驟S20提供可靠的雜訊資訊以用於後續如步驟S30之一例子中進行決定和放大動作。此外,這種方式避免了將語音或聲音誤判為環境雜訊之狀況,以及避免了在步驟S30之該例子中不合適或異常地增強或放大下行語音訊號之狀況。
例如,步驟S30可實施為:使得增強的下行語音訊號持續具有不大於一目標準位(例如3dB)的訊雜比(SNR)。若檢測到的環境雜訊之準位(記作Le)為-15dB,下行語音訊號之準位(記作Ld)為-30dB,則增強的下行語音訊號之訊號準位為Ld加上一數值Lg從而滿足此目標準位。
運算裝置的使用者在吵雜環境下通話時,縱使揚聲器的音量已增大,使用者仍然可能因為聲音清晰度的惡劣情況而感到不便。在最壞的情況下,過度驅動此放大的下行語音訊號可造成例如音頻元件或揚聲器的硬體損害。又此過度放大的下行語音訊號會帶來不悅的聆聽經驗或甚至傷害到使用者的聽覺。關於上述問題,為了訊號品質或保護行動裝置的硬體起見,在一些例子中,可以設計數值Lg在一動態餘量(headroom)之範圍內,而動態餘量亦即最大 允許之增益的增量。動態餘量亦可定義為標稱(nominal)訊號值與最大無失真(undistorted)值之差值。例如,延續上述的數字上的例子,動態餘量可預定為10dB,使得放大的下行語音訊號可以增強至-5dB(即-15dB+10dB)。
但是,若放大的下行語音訊號的訊號準位大或接近最大準位(例如0dB),則放大的下行語音訊號可能會失真。第4圖示意這種情況的例子:若檢測到的環境雜訊的準位Le為-2dB,而下行語音訊號的準位在時點t1以前為-9dB,又動態餘量預定為10dB的話,則可預期放大的下行語音訊號的準位將達到+1dB(即-9dB+10dB)。吾人應注意到:在數位域中,訊號準位是不允許超過最大訊號準位0dB的,故在上述情況下,放大的下行語音訊號會達到最大訊號準位而失真。如此將造成音頻元件或揚聲器的硬體損害,或帶來不悅的聆聽經驗或甚至傷害到使用者的聽覺。
故此,在其他實施例中,步驟S30可以利用可調的動態餘量來實施。例如,可按照一個或多個條件來調整動態餘量,或者動態地調整動態餘量。此外,可以設定動態餘量以避免訊號失真以至於對硬體或聽覺造成損害。
在一些例子中,可調的動態餘量依據第一聲音訊號的訊號準位而被調整,使得第二聲音訊號的訊號準位跟第一聲音訊號的訊號準位成線性或非線性比例,但仍然低於一截斷準位(clipping level)例如0dB。
例如,在步驟S30中,可利用具有不同數值的動態餘量來決定放大的下行語音訊號。當下行語音訊號的訊號準位(例如訊號能量準位)低於一門檻值(即並非接近最大準 位)時,可調的動態餘量為一第一數值(例如10dB);當下行語音訊號的訊號準位(例如-9dB)超過門檻值時,可調的動態餘量為一第二數值(例如5dB),其中第二數值小於第一數值。請參考第4圖,當動態餘量小於第一數值如8dB時,放大的下行語音訊號的準位(記作Lb)為-1dB,其低於最大準位;如此,放大的下行語音訊號之準位如前述例子對於硬體和聽覺保護而言都是安全的,縱使在吵雜環境中,亦是如此。
在另一例子中,動態餘量可依據運算裝置2的音量控制水平而被調整。例如,當音量控制水平被改變時,利用代表音量控制水平的音量資料來通知訊號處理單元21。訊號處理單元21依據音量資料採用不同的動態餘量的數值以執行步驟S30。例如,若音量資料表示音量控制水平處於或低於一門檻值(例如中間或以上的準位)時,可設定動態餘量為一第一數值(例如10dB)。當音量資料表示音量控制水平處於或接近最大準位或超過門檻值時,可設定動態餘量為一第二數值(例如5dB),其中第二數值小於第一數值。在其他例子中,可依據一個或多個條件,例如依據下行語音訊號準位和音量控制水平,來調整動態餘量。
在步驟S30的其他例子中,可針對不同頻帶來增強或放大第一聲音訊號。例如第5圖所示的一雜訊頻譜。為了維持足夠的訊雜比,可針對一個或多個頻帶以及人類聽覺對聲音清晰度的特性來增強或放大聲音訊號(例如是下行語音或源自例如檔案或串流視訊或聲音之聲音訊號)。在此例中,需要針對下行語音訊號中約500Hz的頻帶(記作 B1)和3kHz的頻帶(記作B2)進行增強或放大下行語音訊號。
請參考第3A圖,其繪示運算裝置中之一種增加語音清晰度的系統的實施例的方塊圖。此系統3回應欲增加語音清晰度的之一第一聲音訊號(例如第2圖中檢來自行動裝置的通訊單元23的下行語音訊號或來自處理單元25欲作聲音重現的訊號)以及運算裝置之至少一麥克風所檢測到的一聲音訊號,以輸出一第二聲音訊號至運算裝置的至少一揚聲器SK1。此系統3包括環境雜訊決定單元30和清晰度增加單元32。此系統3可實作為軟體或電路,或對訊號處理單元或一般處理器作程式化設定而實現。環境雜訊決定單元30可視作如第1圖所示的步驟S10之一實施例。清晰度增加單元32可視為如第1圖所示的步驟S20和S30之一實施例。
環境雜訊決定單元30包括前置處理模組301和雜訊估測模組303。前置處理模組301利用語音活動檢測模組3013來執行語音活動檢測,以決定麥克風M1檢測到的聲音訊號是否為聲音或雜訊。前置處理模組301更輸出決定結果至雜訊估測模組303。雜訊估測模組303回應此決定結果和來自前置處理模組301的聲音訊號以輸出一參考雜訊訊號SRN ,其代表行動裝置所處的環境雜訊。也就是說,當檢測到的聲音訊號為雜訊時,雜訊估測模組303可輸出檢測到的環境雜訊。關於這個例子,多種等效的實施例列舉如下。在一實施例中,雜訊估測模組303可輸出來自前置處理模組301之檢測到的聲音訊號,並且輸出參考雜訊 訊號SRN ,參考雜訊訊號SRN 指出環境雜訊和有助訊雜比估測的資訊。例如,若語音活動檢測模組3013指出此檢測到的聲音訊號代表使用者語音,雜訊估測模組303輸出夾帶一較低雜訊分數的參考雜訊訊號SRN 。若此檢測到的聲音訊號代表雜訊,例如與某種聲音譬如小孩的叫喊相似時,雜訊估測模組303輸出夾帶一較高雜訊分數的參考雜訊訊號SRN ,此雜訊分數較高用以通知後續處理階段(諸如訊雜比估測)可以忽略參考雜訊訊號SRN 中的環境雜訊。在另一實施例中,可實現雜訊估測模組303為當語音活動檢測模組3013指出沒有語音活動或雜訊分數低於一特定門檻值時,雜訊估測模組303才輸出環境雜訊。如此,雜訊估測模組303可用其他方式實現,並不受限於此。
語音活動檢測模組3013可避免將語音或聲音誤判為環境雜訊之狀況,而且有助於適當地進行環境雜訊估測和有助於後續處理階段中適當地增強或放大第一聲音訊號。在一些例子中,可取能量準位門檻值作為語音活動檢測的條件。若訊號準位超過此能量準位門檻值,則可決定欲上傳的聲音訊號代表有語音活動。反之,若訊號準位低於此能量準位門檻值,則聲音訊號可視為環境雜訊。在其他例子中,語音活動檢測模組3013可擷取檢測到的聲音訊號於頻域或時域上的聲音特徵從而決定語音活動。其中,可儲存諸如在辦公室或火車站中說話、走路等聲音的既定聲音特徵,以供決定語音活動時參考之用。又例如,語音活動檢測模組3013可實施為,以串列或並列方式輸出檢測到的聲音訊號以及語音活動檢測的決定結果(例如 雜訊分數,或語音或雜訊的指示)。
此外,前置處理模組301更可在語音活動檢測模組3013之前利用回音消除模組3011以執行回音消除處理,從而獲得更準確的語音活動檢測的決定結果。例如可利用時域適應性(adaptive)濾波器以實現回音消除模組3011的回音消除處理,又回音消除模組3011輸出檢測到的聲音訊號的一個回音消除後的版本至語音活動檢測模組3013。
在其他例子中,環境雜訊決定單元30可對檢測到的聲音訊號進行雜訊頻譜檢測或估測從而檢測環境雜訊,其中雜訊頻譜檢測或估測可用以辨別語音和雜訊。
清晰度增加單元32包括訊雜比估測模組321、增益計算模組323、增強模組325。訊雜比估測模組321用以實現步驟S20以取得雜訊資訊。訊雜比估測模組321回應參考雜訊訊號SRN 和第一聲音訊號例如下行語音訊號SRx以輸出雜訊資訊,例如第6圖中虛線N代表的頻域上的雜訊準位的曲線。增益計算模組323和增強模組325用以實現步驟S30以增強第一聲音訊號例如下行語音訊號SRx。增益計算模組323耦接於增強模組325和訊雜比估測模組321之間,增益計算模組323回應雜訊資訊和第一聲音訊號SRx以決定一或多個參數從而控制增強模組325以增強第一聲音訊號SRx。例如,增益計算模組323決定了:如第6圖所示,對於某些頻帶而言,第一聲音訊號SRx的訊號準位(記作Sg)小於環境雜訊的訊號準位N。由此,增益計算模組323決定需要對第一聲音訊號SRx中例如頻帶W1 進行增強處理,並且控制增強模組325增強第一聲音訊號SRx中已決定的頻帶,為聲音清晰度而維持足夠的訊雜比。已決定的頻帶例如第6圖所示的頻帶W1和W2之一個或多個頻帶。例如,增益計算模組323比較環境雜訊的雜訊準位與第一聲音訊號SRx的訊號準位以決定用以控制增強模組325的決定結果,其中決定結果更可包括提供給增強模組325使用的訊號準位之一增量。
再者,前述關於步驟S30的例子可應用於實現增益計算模組323以決定一個或多個準位從而增強下行語音訊號之一個或多個頻帶。例如,增益計算模組323可按照一個或多個條件來調整其動態餘量,或者動態地調整其動態餘量。此外,動態餘量得以設定以避免對硬體或人類聽覺造成損害並且避免訊號失真。在一些例子中,增益計算模組323可從行動裝置的處理單元或其他元件取得音量資料,從而決定是否需要或如何調整動調餘量。
增強模組325以增加處理可利用等化或其加增強或放大技術而實現。
在一些實施例中,如第3A圖所示屬於系統3之一或多個的模組、單元及方塊,可以軟體程式碼、軟體模組或專屬電路(諸如晶片或晶片中的電路模組)實現,或是對訊號處理單元或可程式化晶片或一般處理器進行程式化設定來實現。例如,可利用例如單核或多核的處理器來實現系統3,處理器諸如應用處理器、數位訊號處理器、特殊應用積體電路(ASIC,Application Specific Integrated Circuit)或元件可程式邏輯閘陣列(FPGA,Field Programmable Gate Array),其可設計用來執行如第3A圖中系統3的操作(或如第1圖中的方法)之用。
請參考第3B圖,其繪示清晰度增加單元的另一實施的方塊圖。第3B圖的清晰度增加單元42相較於第3A圖,在用以重現一第一聲音訊號(例如記作SRx)的路徑上,更包括前置處理模組420。前置處理模組420回應第一聲音訊號,若第一聲音訊號代表欲求的語音或聲音,前置處理模組420輸出經前置處理的第一聲音訊號,以供後續處理階段放大之用。例如,若第一聲音訊號在通話中的某時段代表並非語音或代表雜訊,這種並非欲求訊號是不需要放大,或可將之過濾掉。在一些實施例中,前置處理模組420可包括前述例子中的語音活動檢測模組或雜訊估測模組之一者或兩者。又一些實施例中,若第一聲音訊號代表欲求的語音或聲音,前置處理模組420可輸出一個或多個控制訊號或指示資料至清晰度增加單元42之一個或多個模組,以使經前置處理的第一聲音訊號為後續處理階段所放大。
再者,其他實施例更揭露一種電腦或運算裝置可讀式資訊儲存媒體,其上儲存有程式碼或一個或多個程式模組。此程式碼之執行能實現上如第1圖之增加語音清晰度的方法,或實現如第3A或3B圖之系統3。這些實施例的可讀式資訊儲存媒體比如但不受限於:光學式資訊儲存媒體,磁式資訊儲存媒體或記憶體,如記憶卡、靭體或ROM或RAM、或其專屬於或嵌入於可程式晶片諸如數位訊號處理器或一般處理器之記憶體。
綜上所述,雖然以實施例揭露如上,然其並非用以限定本案之實施方式。本揭露所屬技術領域中具有通常知識者,在不脫離本揭露之精神和範圍內,當可作各種之更動與潤飾。因此,本案之保護範圍當視後附之申請專利範圍所界定者為準。
2‧‧‧行動裝置
3‧‧‧系統
21‧‧‧訊號處理單元
23‧‧‧通訊單元
25‧‧‧處理單元
30‧‧‧環境雜訊決定單元
32、42‧‧‧清晰度增加單元
301‧‧‧前置處理模組
303‧‧‧雜訊估測模組
321‧‧‧訊雜比估測模組
323‧‧‧增益計算模組
325‧‧‧增強模組
420‧‧‧前置處理模組
3011‧‧‧回音消除模組
3013‧‧‧語音活動檢測模組
M1‧‧‧麥克風
SK1‧‧‧揚聲器
第1圖繪示一種增加語音清晰度的方法的實施例的流程圖。
第2圖繪示一種運算裝置之實施例的方塊圖。
第3A圖繪示運算裝置中之一種增加語音清晰度的系統的實施例的方塊圖。
第3B圖繪示運算裝置中之清晰度增加單元的另一實施例的方塊圖。
第4圖示意語音清晰度增加單元之運作的實施例。
第5圖示意針對下行語音的不同頻帶來增強下行語音的實施例。
第6圖繪示意使用訊雜比估測得到的雜訊資訊的實施例。
S10-S30‧‧‧步驟

Claims (26)

  1. 一種增加語音清晰度的方法,該方法為運算裝置所使用,該方法包括:對該運算裝置之至少一麥克風所檢測到的一聲音訊號進行語音活動檢測從而檢測環境雜訊;根據該檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊;以及利用該運算裝置依據該雜訊資訊和該第一聲音訊號且按照一可調的動態餘量(headroom)來增強該第一聲音訊號從而輸出一第二聲音訊號,其中該可調的動態餘量依據該第一聲音訊號的訊號準位而被調整,使得該第二聲音訊號的訊號準位低於一截斷準位並且跟該第一聲音訊號的訊號準位成比例。
  2. 如申請專利範圍第1項所述之增加語音清晰度的方法,其中該雜訊資訊代表針對該第一聲音訊號的該檢測到的環境雜訊的度量水平。
  3. 如申請專利範圍第1項所述之增加語音清晰度的方法,其中該檢測環境雜訊步驟包括:進行語音活動檢測以決定該檢測到的聲音訊號是否為雜訊;以及當該檢測到的聲音訊號代表雜訊時,輸出該檢測到的環境雜訊。
  4. 如申請專利範圍第1項所述之增加語音清晰度的方法,其中該檢測環境雜訊步驟包括:輸出該檢測到的聲音訊號的一回音消除後的版本;以 及當該檢測到的聲音訊號代表雜訊時,輸出該檢測到的環境雜訊;其中對該檢測到的聲音訊號的該回音消除後的版本進行該語音活動檢測以決定該檢測到的聲音訊號是否為雜訊。
  5. 如申請專利範圍第1項所述之增加語音清晰度的方法,更包括:對該第一聲音訊號進行一前置處理以決定該第一聲音訊號是否雜訊;其中在該輸出該第二聲音訊號的步驟中,若利用該前置處理決定該第一聲音訊號為雜訊,則不用增強該第一聲音訊號來輸出該第二聲音訊號。
  6. 如申請專利範圍第5項所述之增加語音清晰度的方法,其中利用語音活動檢測對該第一聲音訊號進行該前置處理。
  7. 如申請專利範圍第5項所述之增加語音清晰度的方法,其中利用雜訊估測對該第一聲音訊號進行該前置處理。
  8. 如申請專利範圍第1項所述之增加語音清晰度的方法,其中針對人類聽覺的至少一個頻帶來增強該第一聲音訊號以輸出該第二聲音訊號。
  9. 一種增加運算裝置之語音清晰度的裝置,包括:一環境雜訊決定單元,用以根據該運算裝置之至少一麥克風所檢測到的一聲音訊號從而檢測環境雜訊; 一清晰度增加單元,耦接該環境雜訊決定單元,用以根據該檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊,以及根據該雜訊資訊和該第一聲音訊號且按照一可調的動態餘量(headroom)來增強該第一聲音訊號從而輸出一第二聲音訊號,其中該清晰度增加單元依據該第一聲音訊號的訊號準位以調整該可調的動態餘量,使得該第二聲音訊號的訊號準位低於一截斷準位並且跟該第一聲音訊號的訊號準位成比例。
  10. 如申請專利範圍第9項所述之增加運算裝置之語音清晰度的裝置,其中該雜訊資訊代表針對該第一聲音訊號的該檢測到的環境雜訊的度量水平。
  11. 如申請專利範圍第9項所述之增加運算裝置之語音清晰度的裝置,其中該環境雜訊決定單元包括:一前置處理模組,用以根據該檢測到的聲音訊號以輸出一聲音訊號,其包括:一語音活動檢測模組,用以決定該檢測到的聲音訊號是否為雜訊並且輸出決定結果;以及一雜訊估測模組,回應該前置處理模組的該決定結果和該聲音訊號以輸出一參考雜訊訊號。
  12. 如申請專利範圍第9項所述之增加運算裝置之語音清晰度的裝置,其中該清晰度增加單元包括:一訊雜比估測模組,回應該參考雜訊訊號和該第一聲音訊號,用以輸出該雜訊資訊;一增強模組;以及一增益計算模組,耦接於該增強模組和該訊雜比估測 模組之間,回應該雜訊資訊和該第一聲音訊號,用以控制該增強模組以增強該第一聲音訊號。
  13. 如申請專利範圍第12項所述之增加運算裝置之語音清晰度的裝置,其中該清晰度增加單元更包括:一前置處理模組,用以決定該第一聲音訊號是否雜訊;其中若該前置處理模組決定該第一聲音訊號為雜訊,則該前置處理模組通知該增益計算模組以控制該增強模組不用增強該第一聲音訊號以輸出該第二聲音訊號。
  14. 如申請專利範圍第12項所述之增加運算裝置之語音清晰度的裝置,其中該前置處理模組對該第一聲音訊號進行語音活動檢測或雜訊估測以決定該第一聲音訊號是否雜訊。
  15. 一種運算裝置,包括:至少一麥克風;一處理單元,用以控制該運算裝置;一通訊單元;一訊號處理單元,耦接該處理單元和該通訊單元,用以增加該運算裝置的語音清晰度,包括:一環境雜訊決定單元,用以根據該運算裝置之該至少一麥克風所檢測到的一聲音訊號從而檢測環境雜訊;一清晰度增加單元,耦接該環境雜訊決定單元,用以根據該檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊,以及根據該雜訊資訊和該第一聲音訊號且按照 一可調的動態餘量來增強該第一聲音訊號從而輸出一第二聲音訊號,其中該清晰度增加單元依據該第一聲音訊號的訊號準位以調整該可調的動態餘量,使得該第二聲音訊號的訊號準位低於一截斷準位並且跟該第一聲音訊號的訊號準位成比例。
  16. 如申請專利範圍第15項所述之運算裝置,其中該清晰度增加單元包括:一訊雜比估測模組,回應該參考雜訊訊號和該第一聲音訊號,用以輸出該雜訊資訊;一增強模組;以及一增益計算模組,耦接於該增強模組和該訊雜比估測模組之間,回應該雜訊資訊和該第一聲音訊號,用以控制該增強模組以增強該第一聲音訊號。
  17. 如申請專利範圍第16項所述之運算裝置,其中該清晰度增加單元更包括:一前置處理模組,用以決定該第一聲音訊號是否雜訊;其中若該前置處理模組決定該第一聲音訊號為雜訊,則該前置處理模組通知該增益計算模組以控制該增強模組不用增強該第一聲音訊號以輸出該第二聲音訊號。
  18. 如申請專利範圍第15項所述之運算裝置,其中該通訊單元輸出該第一聲音訊號至該訊號處理單元,該第一聲音訊號為用作語音通訊之下行聲音訊號。
  19. 如申請專利範圍第15項所述之運算裝置,其中 該通訊單元依據一多媒體資料源以輸出該第一聲音訊號至該訊號處理單元。
  20. 如申請專利範圍第15項所述之運算裝置,其中該清晰度增加單元針對人類聽覺的至少一個頻帶來增強該第一聲音訊號以輸出該第二聲音訊號。
  21. 一種增加語音清晰度的方法,該方法為運算裝置所使用,該方法包括:對該運算裝置之至少一麥克風所檢測到的一聲音訊號進行語音活動檢測從而檢測環境雜訊;根據該檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊;以及利用該運算裝置依據該雜訊資訊和該第一聲音訊號且按照一可調的動態餘量(headroom)來增強該第一聲音訊號從而輸出一第二聲音訊號,其中當該第一聲音訊號的訊號準位低於一門檻值時,該可調的動態餘量為一第一數值;當該第一聲音訊號的訊號準位超過該門檻值時,該可調的動態餘量為一第二數值,該第二數值小於該第一數值。
  22. 一種增加語音清晰度的方法,該方法為運算裝置所使用,該方法包括:對該運算裝置之至少一麥克風所檢測到的一聲音訊號進行語音活動檢測從而檢測環境雜訊;根據該檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊;以及利用該運算裝置依據該雜訊資訊和該第一聲音訊號 且按照一可調的動態餘量(headroom)來增強該第一聲音訊號從而輸出一第二聲音訊號,其中該可調的動態餘量依據該運算裝置的一音量控制水平而被調整,其中當該音量控制水平低於一門檻值時,該可調的動態餘量為一第一數值;當音量控制水平超過該門檻值時,該可調的動態餘量為一第二數值,該第二數值小於該第一數值。
  23. 一種增加運算裝置之語音清晰度的裝置,包括:一環境雜訊決定單元,用以根據該運算裝置之至少一麥克風所檢測到的一聲音訊號從而檢測環境雜訊;一清晰度增加單元,耦接該環境雜訊決定單元,用以根據該檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊,以及根據該雜訊資訊和該第一聲音訊號且按照一可調的動態餘量(headroom)來增強該第一聲音訊號從而輸出一第二聲音訊號,其中當該第一聲音訊號的訊號準位低於一門檻值時,該清晰度增加單元改變該可調的動態餘量為一第一數值;當該第一聲音訊號的訊號準位超過該門檻值時,該清晰度增加單元改變該可調的動態餘量為一第二數值,其中該第二數值小於該第一數值。
  24. 一種增加運算裝置之語音清晰度的裝置,包括:一環境雜訊決定單元,用以根據該運算裝置之至少一麥克風所檢測到的一聲音訊號從而檢測環境雜訊;一清晰度增加單元,耦接該環境雜訊決定單元,用以 根據該檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊,以及根據該雜訊資訊和該第一聲音訊號且按照一可調的動態餘量(headroom)來增強該第一聲音訊號從而輸出一第二聲音訊號,其中該清晰度增加單元依據該運算裝置的一音量控制水平而調整該可調的動態餘量,其中當該音量控制水平低於一門檻值時,該清晰度增加單元改變該可調的動態餘量為一第一數值;當音量控制水平超過該門檻值時,該清晰度增加單元改變該可調的動態餘量為一第二數值,其中該第二數值小於該第一數值。
  25. 一種運算裝置,包括:至少一麥克風;一處理單元,用以控制該運算裝置;一通訊單元;一訊號處理單元,耦接該處理單元和該通訊單元,用以增加該運算裝置的語音清晰度,包括:一環境雜訊決定單元,用以根據該運算裝置之該至少一麥克風所檢測到的一聲音訊號從而檢測環境雜訊;一清晰度增加單元,耦接該環境雜訊決定單元,用以根據該檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊,以及根據該雜訊資訊和該第一聲音訊號且按照一可調的動態餘量來增強該第一聲音訊號從而輸出一第二聲音訊號,其中當該第一聲音訊號的訊號準位低於一門檻 值時,該清晰度增加單元改變該可調的動態餘量為一第一數值;當該第一聲音訊號的訊號準位超過該門檻值時,該清晰度增加單元改變該可調的動態餘量為一第二數值,其中該第二數值小於該第一數值。
  26. 一種運算裝置,包括:至少一麥克風;一處理單元,用以控制該運算裝置;一通訊單元;一訊號處理單元,耦接該處理單元和該通訊單元,用以增加該運算裝置的語音清晰度,包括:一環境雜訊決定單元,用以根據該運算裝置之該至少一麥克風所檢測到的一聲音訊號從而檢測環境雜訊;一清晰度增加單元,耦接該環境雜訊決定單元,用以根據該檢測到的環境雜訊和一第一聲音訊號取得雜訊資訊,以及根據該雜訊資訊和該第一聲音訊號且按照一可調的動態餘量來增強該第一聲音訊號從而輸出一第二聲音訊號,其中該清晰度增加單元依據該運算裝置的一音量控制水平而調整該可調的動態餘量,其中當該音量控制水平低於一門檻值時,該清晰度增加單元改變該可調的動態餘量為一第一數值;當音量控制水平超過該門檻值時,該清晰度增加單元改變該可調的動態餘量為一第二數值,其中該第二數值小於該第一數值。
TW102105328A 2012-02-22 2013-02-08 增加語音清晰度的方法和裝置以及運算裝置 TWI484483B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261601583P 2012-02-22 2012-02-22
US13/671,499 US9064497B2 (en) 2012-02-22 2012-11-07 Method and apparatus for audio intelligibility enhancement and computing apparatus

Publications (2)

Publication Number Publication Date
TW201335931A TW201335931A (zh) 2013-09-01
TWI484483B true TWI484483B (zh) 2015-05-11

Family

ID=47826798

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102105328A TWI484483B (zh) 2012-02-22 2013-02-08 增加語音清晰度的方法和裝置以及運算裝置

Country Status (6)

Country Link
US (1) US9064497B2 (zh)
EP (1) EP2631907A1 (zh)
JP (1) JP5704470B2 (zh)
KR (1) KR101455710B1 (zh)
CN (1) CN103295581B (zh)
TW (1) TWI484483B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI595791B (zh) * 2016-03-29 2017-08-11 高瞻資訊股份有限公司 音訊檢測方法
TWI665661B (zh) * 2018-02-14 2019-07-11 美律實業股份有限公司 音頻處理裝置及音頻處理方法

Families Citing this family (183)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR20120034863A (ko) * 2010-10-04 2012-04-13 삼성전자주식회사 이동통신 단말기에서 오디오 신호 처리 방법 및 장치
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9349385B2 (en) 2012-02-22 2016-05-24 Htc Corporation Electronic device and gain controlling method
US9064497B2 (en) 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US8639294B2 (en) * 2012-05-01 2014-01-28 Audyssey Laboratories, Inc. System and method for performing automatic gain control in mobile phone environments
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
CN104010265A (zh) * 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
TWI545556B (zh) * 2013-10-02 2016-08-11 宏達國際電子股份有限公司 電子裝置與增益控制方法
EP3951778A1 (en) * 2013-10-22 2022-02-09 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Concept for combined dynamic range compression and guided clipping prevention for audio devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN104219402A (zh) * 2014-02-14 2014-12-17 爱沟通网络科技有限公司 一种改善VoIP通信质量的系统
JP6106618B2 (ja) * 2014-02-21 2017-04-05 日本電信電話株式会社 音声区間検出装置、音声認識装置、その方法、及びプログラム
US9484043B1 (en) * 2014-03-05 2016-11-01 QoSound, Inc. Noise suppressor
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
TWI559295B (zh) * 2014-10-08 2016-11-21 Chunghwa Telecom Co Ltd Elimination of non - steady - state noise
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US20170018282A1 (en) * 2015-07-16 2017-01-19 Chunghwa Picture Tubes, Ltd. Audio processing system and audio processing method thereof
CN105244037B (zh) * 2015-08-27 2019-01-15 广州市百果园网络科技有限公司 语音信号处理方法及装置
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105704321B (zh) * 2016-03-21 2019-02-22 Oppo广东移动通信有限公司 利用降噪麦克风动态调节通话音量的方法和系统
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN106527478A (zh) * 2016-11-24 2017-03-22 深圳市道通智能航空技术有限公司 无人机现场声音获取方法与有声视频实现方法及相关装置
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107404625B (zh) * 2017-07-18 2020-10-16 海信视像科技股份有限公司 终端的音效处理方法及装置
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
CN108269567B (zh) * 2018-01-23 2021-02-05 北京百度网讯科技有限公司 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108540886A (zh) * 2018-04-17 2018-09-14 建荣半导体(深圳)有限公司 一种听力保护方法、系统、存储装置及蓝牙耳机
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US10991377B2 (en) * 2019-05-14 2021-04-27 Goodix Technology (Hk) Company Limited Method and system for speaker loudness control
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
RU203218U1 (ru) * 2020-12-15 2021-03-26 Общество с ограниченной ответственностью "Речевая аппаратура "Унитон" «речевой корректор» - устройство для улучшения разборчивости речи
CN114915886A (zh) * 2021-02-08 2022-08-16 苏州佳世达电通有限公司 动态播音方法及播音装置
CN112614513B (zh) * 2021-03-08 2021-06-08 浙江华创视讯科技有限公司 一种语音检测方法、装置、电子设备及存储介质
CN113190207A (zh) 2021-04-26 2021-07-30 北京小米移动软件有限公司 信息处理方法、装置、电子设备及存储介质
WO2023028018A1 (en) 2021-08-26 2023-03-02 Dolby Laboratories Licensing Corporation Detecting environmental noise in user-generated content

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200926151A (en) * 2007-09-28 2009-06-16 Qualcomm Inc Multiple microphone voice activity detector
US20100017205A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
WO2013166439A1 (en) * 2012-05-04 2013-11-07 Setem Technologies, Llc Systems and methods for source signal separation
WO2014021890A1 (en) * 2012-08-01 2014-02-06 Dolby Laboratories Licensing Corporation Percentile filtering of noise reduction gains

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI102337B1 (fi) * 1995-09-13 1998-11-13 Nokia Mobile Phones Ltd Menetelmä ja piirijärjestely audiosignaalin käsittelemiseksi
GB2306086A (en) 1995-10-06 1997-04-23 Richard Morris Trim Improved adaptive audio systems
JP3284176B2 (ja) 1996-10-25 2002-05-20 シャープ株式会社 オーディオ装置
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
JP2000163098A (ja) 1998-11-25 2000-06-16 Mitsubishi Electric Corp 音声認識装置
EP1811660B1 (en) * 1999-03-30 2013-10-09 Qualcomm Incorporated Method and apparatus for automatically adjusting speaker gain within a mobile telephone
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
JP4145507B2 (ja) 2001-06-07 2008-09-03 松下電器産業株式会社 音質音量制御装置
JP2004173173A (ja) 2002-11-22 2004-06-17 Matsushita Electric Ind Co Ltd 音声処理装置
JP2007500466A (ja) 2003-07-28 2007-01-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声調整装置、方法及びコンピュータプログラム
DE602004004242T2 (de) 2004-03-19 2008-06-05 Harman Becker Automotive Systems Gmbh System und Verfahren zur Verbesserung eines Audiosignals
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
JP4483761B2 (ja) 2005-10-14 2010-06-16 パナソニック電工株式会社 拡声通話装置
US20090010452A1 (en) 2007-07-06 2009-01-08 Texas Instruments Incorporated Adaptive noise gate and method
JP5134876B2 (ja) * 2007-07-11 2013-01-30 株式会社日立製作所 音声通信装置及び音声通信方法並びにプログラム
JP5219522B2 (ja) 2008-01-09 2013-06-26 アルパイン株式会社 音声明瞭度改善システム及び音声明瞭度改善方法
KR101544429B1 (ko) 2008-10-17 2015-08-17 삼성전자주식회사 이동통신 시스템의 이득 제어 장치 및 방법
JP5127754B2 (ja) 2009-03-24 2013-01-23 株式会社東芝 信号処理装置
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
US9064497B2 (en) 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200926151A (en) * 2007-09-28 2009-06-16 Qualcomm Inc Multiple microphone voice activity detector
US20100017205A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
WO2013166439A1 (en) * 2012-05-04 2013-11-07 Setem Technologies, Llc Systems and methods for source signal separation
WO2014021890A1 (en) * 2012-08-01 2014-02-06 Dolby Laboratories Licensing Corporation Percentile filtering of noise reduction gains

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI595791B (zh) * 2016-03-29 2017-08-11 高瞻資訊股份有限公司 音訊檢測方法
TWI665661B (zh) * 2018-02-14 2019-07-11 美律實業股份有限公司 音頻處理裝置及音頻處理方法

Also Published As

Publication number Publication date
KR20130096625A (ko) 2013-08-30
JP2013172454A (ja) 2013-09-02
TW201335931A (zh) 2013-09-01
EP2631907A1 (en) 2013-08-28
KR101455710B1 (ko) 2014-10-28
CN103295581A (zh) 2013-09-11
CN103295581B (zh) 2016-04-06
JP5704470B2 (ja) 2015-04-22
US9064497B2 (en) 2015-06-23
US20130218560A1 (en) 2013-08-22

Similar Documents

Publication Publication Date Title
TWI484483B (zh) 增加語音清晰度的方法和裝置以及運算裝置
US9299333B2 (en) System for adaptive audio signal shaping for improved playback in a noisy environment
US8744091B2 (en) Intelligibility control using ambient noise detection
US8972251B2 (en) Generating a masking signal on an electronic device
CA2766196C (en) Apparatus, method and computer program for controlling an acoustic signal
US9525392B2 (en) System and method for dynamically adapting playback device volume on an electronic device
KR20160071398A (ko) 능동 잡음 제거 출력의 제한
US9160404B2 (en) Reverberation reduction device and reverberation reduction method
JP2008543194A (ja) オーディオ信号ゲイン制御装置及び方法
US9271089B2 (en) Voice control device and voice control method
US9564145B2 (en) Speech intelligibility detection
US8954322B2 (en) Acoustic shock protection device and method thereof
JP5172580B2 (ja) 音補正装置及び音補正方法
CN112802492B (zh) 一种抑制啸叫的方法、装置、芯片及模组设备
CN115497494A (zh) 通话增强方法、装置、通话系统、电子设备及存储介质